あらゆるデータを一元的に分析できる「オープンデータレイク分析」：構造化データも非構造化データも

何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。

≫ 2021年03月12日 08時00分公開

[Adrian Bridgwater，Computer Weekly]

　オープンデータレイク分析について考えてみよう。だがその前に、名前と定義を幾つか整理しておく必要がある。このストーリーは「Presto」向けの自称「セルフサービス型」分析企業のAhanaから始まる。

　Prestoは、高速なインメモリ分散SQLエンジンだ。Prestoはフェデレーションを行うため、リレーショナルデータベース、NoSQLデータベース、データウェアハウス、データレイクなどにクエリを発行できる。

　データレイクとは、組み立ても構造化もされていない未知のデータの塊だ。重複排除と配信の初期段階で、まだ解析もパーティション分割も管理も、扱いやすくする処理も施されていないものを指す。分析に活用するには、こうした処理を全て施す必要がある。

　つまり、データレイクからオープンデータレイク分析へというのがこのストーリーの展開だ。

　Ahanaは2020年末、「Ahana Cloud for Presto」を発表した。Amazon Web Services（AWS）上のPrestoにフォーカスした初めてのクラウドネイティブマネージドサービスだ。

　さらに、Ahanaは「Intel Disruptor Program」に参加することでIntelと連携し、AWSを使ってクラウド上の「Intel Optane」を利用する「Ahana Cloud」ユーザー向けに、オープンデータレイク分析アクセラレーターパッケージを提供する市場開拓ソリューションも発表した。

オープンデータレイク分析とは

　Ahanaによると、オープンデータレイク分析とはオープンソース、オープンフォーマット、オープンインタフェース、オープンクラウドを含む技術スタックであり、従来のデータウェアハウスに伴う専用のフォーマットやロックインを避けたい企業に適したアプローチだという。

　「このアーキテクチャは疎結合型の分散スタックで構成され、データを一切移動することなく多くのデータベースやデータレイク間でのクエリを可能にする。変換せずにデータレイクのデータを直接クエリするためにPrestoを使う。構造化データも非構造化データも含め、データレイクにある全ての種類のデータをクエリ可能だ」とAhanaは製品の説明文に記載している。

一番の選択肢はAhana

　Ahanaの共同創設者兼最高製品責任者のディプティ・ボルカー氏によると、デプロイメント、構成、管理の複雑さを抽象化によって取り除くことで、オープンデータレイク分析に「セルフサービス型」のPrestoをデプロイできるようになるだけでなく、広範なデータソースの分析も可能になるという。

　オープンデータレイクプラットフォーム企業の一つであるQuboleによると、オープンデータレイクはアプリケーション、データベース、データウェアハウス、リアルタイムストリームなどの多くのソースからデータを取り込むという。

　Quboleのブログ記事には次のように記載されている。「オープンデータレイクはバッチデータパイプラインによるプル取り込みと、ストリーミング処理によるプッシュ取り込みをサポートする。オープンデータレイクはデータ変換にSQLやApache Sparkなどのオープン標準を使う。バッチデータパイプラインでは、レイク内のデータセットへの行レベルの挿入と更新（UPSERT）がサポートされる」

　Quboleによると、取り込んだデータは「Apache ORC」や「Apache Parquet」などのオープンデータフォーマットに変換されるためプラットフォームに依存せず、高速アクセスと分析用に最適化され、制約なしにユーザーが利用できるデータになるという。

　Apache ParquetはHadoopエコシステムの任意のプロジェクトで利用可能な列指向のストレージフォーマットだ。データ処理フレームワーク、データモデル、プログラミング言語を問わず利用できる。

TechTargetジャパントップデータ分析