あらゆるデータを一元的に分析できる「オープンデータレイク分析」構造化データも非構造化データも

何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。

2021年03月12日 08時00分 公開
[Adrian BridgwaterComputer Weekly]

 オープンデータレイク分析について考えてみよう。だがその前に、名前と定義を幾つか整理しておく必要がある。このストーリーは「Presto」向けの自称「セルフサービス型」分析企業のAhanaから始まる。

 Prestoは、高速なインメモリ分散SQLエンジンだ。Prestoはフェデレーションを行うため、リレーショナルデータベース、NoSQLデータベース、データウェアハウス、データレイクなどにクエリを発行できる。

 データレイクとは、組み立ても構造化もされていない未知のデータの塊だ。重複排除と配信の初期段階で、まだ解析もパーティション分割も管理も、扱いやすくする処理も施されていないものを指す。分析に活用するには、こうした処理を全て施す必要がある。

 つまり、データレイクからオープンデータレイク分析へというのがこのストーリーの展開だ。

 Ahanaは2020年末、「Ahana Cloud for Presto」を発表した。Amazon Web Services(AWS)上のPrestoにフォーカスした初めてのクラウドネイティブマネージドサービスだ。

 さらに、Ahanaは「Intel Disruptor Program」に参加することでIntelと連携し、AWSを使ってクラウド上の「Intel Optane」を利用する「Ahana Cloud」ユーザー向けに、オープンデータレイク分析アクセラレーターパッケージを提供する市場開拓ソリューションも発表した。

オープンデータレイク分析とは

 Ahanaによると、オープンデータレイク分析とはオープンソース、オープンフォーマット、オープンインタフェース、オープンクラウドを含む技術スタックであり、従来のデータウェアハウスに伴う専用のフォーマットやロックインを避けたい企業に適したアプローチだという。

 「このアーキテクチャは疎結合型の分散スタックで構成され、データを一切移動することなく多くのデータベースやデータレイク間でのクエリを可能にする。変換せずにデータレイクのデータを直接クエリするためにPrestoを使う。構造化データも非構造化データも含め、データレイクにある全ての種類のデータをクエリ可能だ」とAhanaは製品の説明文に記載している。

一番の選択肢はAhana

 Ahanaの共同創設者兼最高製品責任者のディプティ・ボルカー氏によると、デプロイメント、構成、管理の複雑さを抽象化によって取り除くことで、オープンデータレイク分析に「セルフサービス型」のPrestoをデプロイできるようになるだけでなく、広範なデータソースの分析も可能になるという。

 オープンデータレイクプラットフォーム企業の一つであるQuboleによると、オープンデータレイクはアプリケーション、データベース、データウェアハウス、リアルタイムストリームなどの多くのソースからデータを取り込むという。

 Quboleのブログ記事には次のように記載されている。「オープンデータレイクはバッチデータパイプラインによるプル取り込みと、ストリーミング処理によるプッシュ取り込みをサポートする。オープンデータレイクはデータ変換にSQLやApache Sparkなどのオープン標準を使う。バッチデータパイプラインでは、レイク内のデータセットへの行レベルの挿入と更新(UPSERT)がサポートされる」

 Quboleによると、取り込んだデータは「Apache ORC」や「Apache Parquet」などのオープンデータフォーマットに変換されるためプラットフォームに依存せず、高速アクセスと分析用に最適化され、制約なしにユーザーが利用できるデータになるという。

 Apache ParquetはHadoopエコシステムの任意のプロジェクトで利用可能な列指向のストレージフォーマットだ。データ処理フレームワーク、データモデル、プログラミング言語を問わず利用できる。

ITmedia マーケティング新着記事

news149.jpg

最も利用率の高いショート動画サービスはTikTokではない?
ADKマーケティング・ソリューションズは、ショート動画に関する調査結果を発表しました。

news131.jpg

古くて新しいMMM(マーケティングミックスモデリング)が今注目される理由
大手コスメブランドのEstee Lauder Companiesはブランドマーケティングとパフォーマンス...

news087.png

Yahoo!広告 検索広告、生成AIがタイトルや説明文を提案してくれる機能を無料で提供
LINEヤフーは「Yahoo!広告 検索広告」において、ユーザーが誘導先サイトのURLを入力する...