長い歴史を持つデータウェアハウスはもう不要だという専門家もいる。実際、データウェアハウスはニーズの変化に適応できていない。代わりに登場したデータレイクにも課題が見えてきた。
「データウェアハウス」という用語は1992年、米国のコンピュータ科学者ビル・インモン氏によってITの表舞台に押し上げられた(訳注)。
訳注:同氏の著作『Building the Data Warehouse』を指すと思われる。だがそれ以前からデータウェアハウスという用語やその定義は存在したという説もある。
データウェアハウスに取り組んできたTeradataやIBMの目標は、数十ものデータベースに問い合わせることなく情報を分析し、意思決定を改善することだった。この技術は進化し続けてより大きく、速く、高精度でデータを処理できるようになった。
だが、データウェアハウスはその役割を終える時期に来ていると考える専門家もいる。増え続けるデータ量、情報をより迅速に処理・分析するニーズ、リアルタイム性を含め、従来型のデータウェアハウスにはストレスが掛かっている。
データウェアハウスサプライヤーはクラウドとの競争にも直面している。オンプレミスのデータウェアハウスには数万ドルのコストがかかり、実装にも数カ月を要する。さらに重要なのは、クエリやデータ型の再構成にも数カ月かかることだ。
PA Consultingのリチャード・バークレー氏は、従来型データウェアハウスはデータの急増に苦しんでいると言う。
「クラウドは従来型データウェアハウスよりもはるかに高いスケーラビリティとアジリティーを実現する。クラウドは動的にスケーリングでき、クエリに必要な処理能力を利用するのは処理中のみだ。アイドル状態のインフラにコストをかける必要はない。個別のクエリはオンプレミスでできることをはるかに上回る形で拡張されるため、パフォーマンスが大幅に向上する」
データウェアハウスが直面する課題はデータ量だけではない。単一のデータベースあるいは単一のデータウェアハウスの技術に縛られたくないと考える企業は多い。
ソーシャルメディア、Eコマース、センサーやIoT(モノのインターネット)といったデータストリームから洞察を引き出そうと考える企業が増えている。データウェアハウスはデータスキーマと抽出、変換、読み込み(ETL)プロセスを備えているが、この種のクエリの処理に適した機敏性は備えていない。
Pure Storageのアレックス・マクマラン氏(欧州、中東、アフリカ地域のCTO:最高技術責任者)は言う。
「一晩かけてバッチレポートを作成し、カラー印刷してCEOに見せるようなことはなくなっている。人々はリアルタイムに分析する」と語り、アプリケーションは「ブラックボックス」の金融取引からセキュリティ監視まで実行していると補足する。
データウェアハウスの後継としてデータレイクが候補に挙がった時期もある。データレイクは多くの場合、未加工の情報をクラウドのオブジェクトストレージに格納する。
データレイクはデータの前処理やクレンジングが不要で、構造化データも非構造化データも保持できるため設定や操作が迅速になる。データの処理やETLはアナリストがクエリを実行する時点で行う。
データレイクは、従来のBI(ビジネスインテリジェンス)とは異なるAIなどの分野での利用が増えている。データウェアハウスのような強固な構造を採用していないため、BIを民主化すると表現されることもある。
とはいえデータレイクにも欠点がある。データウェアハウスはその構造を利用してパフォーマンスを得ている。データレイクではそれが失われる恐れがある。
dbInsightのトニー・ベア氏(アナリスト)は次のように話す。「データレイクにはルールがない。そのため必要以上のデータが収集され、活用されないままになる」
これを解決するため、より多くのリソースを投入して「総当たりで問題に当たることでようやくデータウェアハウスに匹敵するパフォーマンスが得られる」と同氏は語る。
こうした方法は非効率的でコストがかかる。ベア氏によると、Snowflakeなどのクラウド分析サプライヤーがクエリとコストを管理するための優れた「防御策」を構築しているという。
データウェアハウスもデータレイクも企業のさまざまな要件をサポートするために存在する。データウェアハウスはクリーンで高品質なデータを使って何度も繰り返すクエリを実行するのに適しており、バッチ形式で実行されることが多い。データレイクは情報を掘り下げるため、よりアドホックで推論を含むこともあるアプローチをサポートする。
「『what if』クエリを実行するなら、データレイクやドキュメント管理システムを使うだろう」とPure Storageのマクマラン氏は話す。同氏はデータレイクを「狩猟採取型」分析、データウェアハウスを「農業型」分析に使うと説明する。「狩猟採取型分析は同じ質問を繰り返すのではなく、問うべき質問を吟味する」(マクマラン氏)
いずれにせよ、ストリーミングデータを処理する弾力性、速度、能力と、効率良くクエリを処理することを全て単一のプラットフォームに組み合わせることが業界の目標だ。
後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
データから得られるインサイトを活用して、企業の競争力を強化していくことの重要性が高まっている。しかし、有用なインサイトの生成は簡単なことではない。その実践を阻む課題を確認しながら、解決策について解説する。
昨今、法人営業においては消費者のニーズを正確に捉え、迅速に対応することが求められている。こうした中で注目されているのが、インテントデータ活用による顧客の興味関心の可視化だ。本資料では、インテントデータのポイントを解説する。
データの爆発的な増加に加えてビジネスにおけるAI活用が加速する中、AIのメリットを最大限に引き出すためにもデータガバナンスの重要性が高まっている。AI時代のデータガバナンスにおいて押さえておきたい5つの柱を解説する。
データの利活用を進めるためにはデータ基盤の導入が必要だ。しかし、データ基盤を構築/運用するためにはさまざまな課題を乗り越えなければならない。本資料では、データ活用環境の構築に成功した15社の事例からそのヒントを解説する。
データ分析・活用とその前提となるデータ可視化のため、多くの企業で導入されているTableau。有用性の高いツールだが、「運用・保守にコストやリソースが割かれる」などの課題もある。これらの課題を解消する方法を探る。
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
Dellが解説する生成AIインフラの“今” モデルだけじゃない必要知識 (2024/11/21)
混沌とする企業のデータリソースを有効活用するにはどこから手を付ければいい? (2024/6/7)
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年4月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。