あらゆるデータを一元的に分析できる「オープンデータレイク分析」:構造化データも非構造化データも
何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。
オープンデータレイク分析について考えてみよう。だがその前に、名前と定義を幾つか整理しておく必要がある。このストーリーは「Presto」向けの自称「セルフサービス型」分析企業のAhanaから始まる。
Prestoは、高速なインメモリ分散SQLエンジンだ。Prestoはフェデレーションを行うため、リレーショナルデータベース、NoSQLデータベース、データウェアハウス、データレイクなどにクエリを発行できる。
データレイクとは、組み立ても構造化もされていない未知のデータの塊だ。重複排除と配信の初期段階で、まだ解析もパーティション分割も管理も、扱いやすくする処理も施されていないものを指す。分析に活用するには、こうした処理を全て施す必要がある。
つまり、データレイクからオープンデータレイク分析へというのがこのストーリーの展開だ。
Ahanaは2020年末、「Ahana Cloud for Presto」を発表した。Amazon Web Services(AWS)上のPrestoにフォーカスした初めてのクラウドネイティブマネージドサービスだ。
さらに、Ahanaは「Intel Disruptor Program」に参加することでIntelと連携し、AWSを使ってクラウド上の「Intel Optane」を利用する「Ahana Cloud」ユーザー向けに、オープンデータレイク分析アクセラレーターパッケージを提供する市場開拓ソリューションも発表した。
オープンデータレイク分析とは
Ahanaによると、オープンデータレイク分析とはオープンソース、オープンフォーマット、オープンインタフェース、オープンクラウドを含む技術スタックであり、従来のデータウェアハウスに伴う専用のフォーマットやロックインを避けたい企業に適したアプローチだという。
「このアーキテクチャは疎結合型の分散スタックで構成され、データを一切移動することなく多くのデータベースやデータレイク間でのクエリを可能にする。変換せずにデータレイクのデータを直接クエリするためにPrestoを使う。構造化データも非構造化データも含め、データレイクにある全ての種類のデータをクエリ可能だ」とAhanaは製品の説明文に記載している。
関連記事
- プロセスマイニングからRPAへ、Siemensの成功事例
- データレイクでSQLクエリを直接実行できる「SQL Analytics」 Databricksが発表
- 「特別なソフトウェアは要らない」──GAME Digitalの顧客データ活用の極意
- 徹底比較:データウェアハウス、データレイク、データマート、ODSの違いは?
- ビッグデータ市場に新たな火種「ODPはApache Software Foundationへの侮辱だ」
一番の選択肢はAhana
Ahanaの共同創設者兼最高製品責任者のディプティ・ボルカー氏によると、デプロイメント、構成、管理の複雑さを抽象化によって取り除くことで、オープンデータレイク分析に「セルフサービス型」のPrestoをデプロイできるようになるだけでなく、広範なデータソースの分析も可能になるという。
オープンデータレイクプラットフォーム企業の一つであるQuboleによると、オープンデータレイクはアプリケーション、データベース、データウェアハウス、リアルタイムストリームなどの多くのソースからデータを取り込むという。
Quboleのブログ記事には次のように記載されている。「オープンデータレイクはバッチデータパイプラインによるプル取り込みと、ストリーミング処理によるプッシュ取り込みをサポートする。オープンデータレイクはデータ変換にSQLやApache Sparkなどのオープン標準を使う。バッチデータパイプラインでは、レイク内のデータセットへの行レベルの挿入と更新(UPSERT)がサポートされる」
Quboleによると、取り込んだデータは「Apache ORC」や「Apache Parquet」などのオープンデータフォーマットに変換されるためプラットフォームに依存せず、高速アクセスと分析用に最適化され、制約なしにユーザーが利用できるデータになるという。
Apache ParquetはHadoopエコシステムの任意のプロジェクトで利用可能な列指向のストレージフォーマットだ。データ処理フレームワーク、データモデル、プログラミング言語を問わず利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.