データウェアハウスとデータレイクが新時代に適応できない弱点データウェアハウスの終わり【前編】

長い歴史を持つデータウェアハウスはもう不要だという専門家もいる。実際、データウェアハウスはニーズの変化に適応できていない。代わりに登場したデータレイクにも課題が見えてきた。

2021年12月09日 08時00分 公開
[Stephen PritchardComputer Weekly]

 「データウェアハウス」という用語は1992年、米国のコンピュータ科学者ビル・インモン氏によってITの表舞台に押し上げられた(訳注)。

訳注:同氏の著作『Building the Data Warehouse』を指すと思われる。だがそれ以前からデータウェアハウスという用語やその定義は存在したという説もある。

 データウェアハウスに取り組んできたTeradataやIBMの目標は、数十ものデータベースに問い合わせることなく情報を分析し、意思決定を改善することだった。この技術は進化し続けてより大きく、速く、高精度でデータを処理できるようになった。

 だが、データウェアハウスはその役割を終える時期に来ていると考える専門家もいる。増え続けるデータ量、情報をより迅速に処理・分析するニーズ、リアルタイム性を含め、従来型のデータウェアハウスにはストレスが掛かっている。

データウェアハウスの限界?

会員登録(無料)が必要です
iStock.com/fizkes

 データウェアハウスサプライヤーはクラウドとの競争にも直面している。オンプレミスのデータウェアハウスには数万ドルのコストがかかり、実装にも数カ月を要する。さらに重要なのは、クエリやデータ型の再構成にも数カ月かかることだ。

 PA Consultingのリチャード・バークレー氏は、従来型データウェアハウスはデータの急増に苦しんでいると言う。

 「クラウドは従来型データウェアハウスよりもはるかに高いスケーラビリティとアジリティーを実現する。クラウドは動的にスケーリングでき、クエリに必要な処理能力を利用するのは処理中のみだ。アイドル状態のインフラにコストをかける必要はない。個別のクエリはオンプレミスでできることをはるかに上回る形で拡張されるため、パフォーマンスが大幅に向上する」

 データウェアハウスが直面する課題はデータ量だけではない。単一のデータベースあるいは単一のデータウェアハウスの技術に縛られたくないと考える企業は多い。

 ソーシャルメディア、Eコマース、センサーやIoT(モノのインターネット)といったデータストリームから洞察を引き出そうと考える企業が増えている。データウェアハウスはデータスキーマと抽出、変換、読み込み(ETL)プロセスを備えているが、この種のクエリの処理に適した機敏性は備えていない。

 Pure Storageのアレックス・マクマラン氏(欧州、中東、アフリカ地域のCTO:最高技術責任者)は言う。

 「一晩かけてバッチレポートを作成し、カラー印刷してCEOに見せるようなことはなくなっている。人々はリアルタイムに分析する」と語り、アプリケーションは「ブラックボックス」の金融取引からセキュリティ監視まで実行していると補足する。

データレイク

 データウェアハウスの後継としてデータレイクが候補に挙がった時期もある。データレイクは多くの場合、未加工の情報をクラウドのオブジェクトストレージに格納する。

 データレイクはデータの前処理やクレンジングが不要で、構造化データも非構造化データも保持できるため設定や操作が迅速になる。データの処理やETLはアナリストがクエリを実行する時点で行う。

 データレイクは、従来のBI(ビジネスインテリジェンス)とは異なるAIなどの分野での利用が増えている。データウェアハウスのような強固な構造を採用していないため、BIを民主化すると表現されることもある。

 とはいえデータレイクにも欠点がある。データウェアハウスはその構造を利用してパフォーマンスを得ている。データレイクではそれが失われる恐れがある。

 dbInsightのトニー・ベア氏(アナリスト)は次のように話す。「データレイクにはルールがない。そのため必要以上のデータが収集され、活用されないままになる」

 これを解決するため、より多くのリソースを投入して「総当たりで問題に当たることでようやくデータウェアハウスに匹敵するパフォーマンスが得られる」と同氏は語る。

クエリとコストの管理

 こうした方法は非効率的でコストがかかる。ベア氏によると、Snowflakeなどのクラウド分析サプライヤーがクエリとコストを管理するための優れた「防御策」を構築しているという。

 データウェアハウスもデータレイクも企業のさまざまな要件をサポートするために存在する。データウェアハウスはクリーンで高品質なデータを使って何度も繰り返すクエリを実行するのに適しており、バッチ形式で実行されることが多い。データレイクは情報を掘り下げるため、よりアドホックで推論を含むこともあるアプローチをサポートする。

 「『what if』クエリを実行するなら、データレイクやドキュメント管理システムを使うだろう」とPure Storageのマクマラン氏は話す。同氏はデータレイクを「狩猟採取型」分析、データウェアハウスを「農業型」分析に使うと説明する。「狩猟採取型分析は同じ質問を繰り返すのではなく、問うべき質問を吟味する」(マクマラン氏)

 いずれにせよ、ストリーミングデータを処理する弾力性、速度、能力と、効率良くクエリを処理することを全て単一のプラットフォームに組み合わせることが業界の目標だ。

後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

製品レビュー 日本オラクル株式会社

有用なインサイトを獲得するには? 実践を阻む課題を解消するデータ基盤活用術

データから得られるインサイトを活用して、企業の競争力を強化していくことの重要性が高まっている。しかし、有用なインサイトの生成は簡単なことではない。その実践を阻む課題を確認しながら、解決策について解説する。

製品資料 ユーソナー株式会社

潜在ターゲットへのアプローチを効率化、消費者の真のニーズを捉える方法とは?

昨今、法人営業においては消費者のニーズを正確に捉え、迅速に対応することが求められている。こうした中で注目されているのが、インテントデータ活用による顧客の興味関心の可視化だ。本資料では、インテントデータのポイントを解説する。

市場調査・トレンド 株式会社セールスフォース・ジャパン

AI時代のデータガバナンス戦略、効果的に実装するために知っておきたい5つの柱

データの爆発的な増加に加えてビジネスにおけるAI活用が加速する中、AIのメリットを最大限に引き出すためにもデータガバナンスの重要性が高まっている。AI時代のデータガバナンスにおいて押さえておきたい5つの柱を解説する。

事例 株式会社primeNumber

効率的なデータの利活用を促進、15社に学ぶデータ基盤の構築/運用のヒント

データの利活用を進めるためにはデータ基盤の導入が必要だ。しかし、データ基盤を構築/運用するためにはさまざまな課題を乗り越えなければならない。本資料では、データ活用環境の構築に成功した15社の事例からそのヒントを解説する。

製品資料 日本電気株式会社

Tableauのクラウド移行により、運用負荷を削減しながら利便性を向上させる方法

データ分析・活用とその前提となるデータ可視化のため、多くの企業で導入されているTableau。有用性の高いツールだが、「運用・保守にコストやリソースが割かれる」などの課題もある。これらの課題を解消する方法を探る。

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news026.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...

news130.jpg

Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...

news040.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年4月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。