何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。
オープンデータレイク分析について考えてみよう。だがその前に、名前と定義を幾つか整理しておく必要がある。このストーリーは「Presto」向けの自称「セルフサービス型」分析企業のAhanaから始まる。
Prestoは、高速なインメモリ分散SQLエンジンだ。Prestoはフェデレーションを行うため、リレーショナルデータベース、NoSQLデータベース、データウェアハウス、データレイクなどにクエリを発行できる。
データレイクとは、組み立ても構造化もされていない未知のデータの塊だ。重複排除と配信の初期段階で、まだ解析もパーティション分割も管理も、扱いやすくする処理も施されていないものを指す。分析に活用するには、こうした処理を全て施す必要がある。
つまり、データレイクからオープンデータレイク分析へというのがこのストーリーの展開だ。
Ahanaは2020年末、「Ahana Cloud for Presto」を発表した。Amazon Web Services(AWS)上のPrestoにフォーカスした初めてのクラウドネイティブマネージドサービスだ。
さらに、Ahanaは「Intel Disruptor Program」に参加することでIntelと連携し、AWSを使ってクラウド上の「Intel Optane」を利用する「Ahana Cloud」ユーザー向けに、オープンデータレイク分析アクセラレーターパッケージを提供する市場開拓ソリューションも発表した。
Ahanaによると、オープンデータレイク分析とはオープンソース、オープンフォーマット、オープンインタフェース、オープンクラウドを含む技術スタックであり、従来のデータウェアハウスに伴う専用のフォーマットやロックインを避けたい企業に適したアプローチだという。
「このアーキテクチャは疎結合型の分散スタックで構成され、データを一切移動することなく多くのデータベースやデータレイク間でのクエリを可能にする。変換せずにデータレイクのデータを直接クエリするためにPrestoを使う。構造化データも非構造化データも含め、データレイクにある全ての種類のデータをクエリ可能だ」とAhanaは製品の説明文に記載している。
Ahanaの共同創設者兼最高製品責任者のディプティ・ボルカー氏によると、デプロイメント、構成、管理の複雑さを抽象化によって取り除くことで、オープンデータレイク分析に「セルフサービス型」のPrestoをデプロイできるようになるだけでなく、広範なデータソースの分析も可能になるという。
オープンデータレイクプラットフォーム企業の一つであるQuboleによると、オープンデータレイクはアプリケーション、データベース、データウェアハウス、リアルタイムストリームなどの多くのソースからデータを取り込むという。
Quboleのブログ記事には次のように記載されている。「オープンデータレイクはバッチデータパイプラインによるプル取り込みと、ストリーミング処理によるプッシュ取り込みをサポートする。オープンデータレイクはデータ変換にSQLやApache Sparkなどのオープン標準を使う。バッチデータパイプラインでは、レイク内のデータセットへの行レベルの挿入と更新(UPSERT)がサポートされる」
Quboleによると、取り込んだデータは「Apache ORC」や「Apache Parquet」などのオープンデータフォーマットに変換されるためプラットフォームに依存せず、高速アクセスと分析用に最適化され、制約なしにユーザーが利用できるデータになるという。
Apache ParquetはHadoopエコシステムの任意のプロジェクトで利用可能な列指向のストレージフォーマットだ。データ処理フレームワーク、データモデル、プログラミング言語を問わず利用できる。
テレビ派? 有料動画配信派? おすすめの作品は? アニメに関する調査(2024年)
クロス・マーケティングは、国民的メジャーコンテンツに成長したアニメの視聴状況につい...
広告収入稼ぎの低品質サイト「MFA」を排除するため、マーケターにできることとは?
MFA(Made For Advertising)サイトの本質的な問題点とは何か。マーケターはMFA排除のた...
“なんちゃってマック”で「チキンビッグマック」体験etc. 米マクドナルドのマルチチャネル過ぎるキャンペーン
McDonald’sは米国での「チキンビッグマック」新発売に当たり、若年層とのつながりを強化...