何の前処理も行っていないデータレイクから必要なデータだけを取り出してデータウェアハウスにインポートして……と、データ分析には手間が掛かる。オープンデータレイク分析は煩雑な部分をまとめて処理する。
オープンデータレイク分析について考えてみよう。だがその前に、名前と定義を幾つか整理しておく必要がある。このストーリーは「Presto」向けの自称「セルフサービス型」分析企業のAhanaから始まる。
Prestoは、高速なインメモリ分散SQLエンジンだ。Prestoはフェデレーションを行うため、リレーショナルデータベース、NoSQLデータベース、データウェアハウス、データレイクなどにクエリを発行できる。
データレイクとは、組み立ても構造化もされていない未知のデータの塊だ。重複排除と配信の初期段階で、まだ解析もパーティション分割も管理も、扱いやすくする処理も施されていないものを指す。分析に活用するには、こうした処理を全て施す必要がある。
つまり、データレイクからオープンデータレイク分析へというのがこのストーリーの展開だ。
Ahanaは2020年末、「Ahana Cloud for Presto」を発表した。Amazon Web Services(AWS)上のPrestoにフォーカスした初めてのクラウドネイティブマネージドサービスだ。
さらに、Ahanaは「Intel Disruptor Program」に参加することでIntelと連携し、AWSを使ってクラウド上の「Intel Optane」を利用する「Ahana Cloud」ユーザー向けに、オープンデータレイク分析アクセラレーターパッケージを提供する市場開拓ソリューションも発表した。
Ahanaによると、オープンデータレイク分析とはオープンソース、オープンフォーマット、オープンインタフェース、オープンクラウドを含む技術スタックであり、従来のデータウェアハウスに伴う専用のフォーマットやロックインを避けたい企業に適したアプローチだという。
「このアーキテクチャは疎結合型の分散スタックで構成され、データを一切移動することなく多くのデータベースやデータレイク間でのクエリを可能にする。変換せずにデータレイクのデータを直接クエリするためにPrestoを使う。構造化データも非構造化データも含め、データレイクにある全ての種類のデータをクエリ可能だ」とAhanaは製品の説明文に記載している。
Ahanaの共同創設者兼最高製品責任者のディプティ・ボルカー氏によると、デプロイメント、構成、管理の複雑さを抽象化によって取り除くことで、オープンデータレイク分析に「セルフサービス型」のPrestoをデプロイできるようになるだけでなく、広範なデータソースの分析も可能になるという。
オープンデータレイクプラットフォーム企業の一つであるQuboleによると、オープンデータレイクはアプリケーション、データベース、データウェアハウス、リアルタイムストリームなどの多くのソースからデータを取り込むという。
Quboleのブログ記事には次のように記載されている。「オープンデータレイクはバッチデータパイプラインによるプル取り込みと、ストリーミング処理によるプッシュ取り込みをサポートする。オープンデータレイクはデータ変換にSQLやApache Sparkなどのオープン標準を使う。バッチデータパイプラインでは、レイク内のデータセットへの行レベルの挿入と更新(UPSERT)がサポートされる」
Quboleによると、取り込んだデータは「Apache ORC」や「Apache Parquet」などのオープンデータフォーマットに変換されるためプラットフォームに依存せず、高速アクセスと分析用に最適化され、制約なしにユーザーが利用できるデータになるという。
Apache ParquetはHadoopエコシステムの任意のプロジェクトで利用可能な列指向のストレージフォーマットだ。データ処理フレームワーク、データモデル、プログラミング言語を問わず利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.
昨今、法人営業においては消費者のニーズを正確に捉え、迅速に対応することが求められている。こうした中で注目されているのが、インテントデータ活用による顧客の興味関心の可視化だ。本資料では、インテントデータのポイントを解説する。
データの爆発的な増加に加えてビジネスにおけるAI活用が加速する中、AIのメリットを最大限に引き出すためにもデータガバナンスの重要性が高まっている。AI時代のデータガバナンスにおいて押さえておきたい5つの柱を解説する。
効率的で効果的なデータ活用を推進するためにも、BIツールは積極的に利用したいツールの1つだ。その有効性を確認しながら、BIツール活用の第一歩として、レポート作成の進め方や、活用を支援するサービスを紹介する。
データの利活用を進めるためにはデータ基盤の導入が必要だ。しかし、データ基盤を構築/運用するためにはさまざまな課題を乗り越えなければならない。本資料では、データ活用環境の構築に成功した15社の事例からそのヒントを解説する。
データドリブン経営を実現するために多くの企業がデータ活用の取り組みを進めているが、思うような成果を挙げられていないという声も多い。そこで本資料では、データ活用を加速させるために解消すべき3つの課題を解説する。
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年4月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「AIエージェント」はデジタルマーケティングをどう高度化するのか
電通デジタルはAIを活用したマーケティングソリューションブランド「∞AI」の大型アップ...