データウェアハウスとデータレイクが新時代に適応できない弱点データウェアハウスの終わり【前編】

長い歴史を持つデータウェアハウスはもう不要だという専門家もいる。実際、データウェアハウスはニーズの変化に適応できていない。代わりに登場したデータレイクにも課題が見えてきた。

2021年12月09日 08時00分 公開
[Stephen PritchardComputer Weekly]

 「データウェアハウス」という用語は1992年、米国のコンピュータ科学者ビル・インモン氏によってITの表舞台に押し上げられた(訳注)。

訳注:同氏の著作『Building the Data Warehouse』を指すと思われる。だがそれ以前からデータウェアハウスという用語やその定義は存在したという説もある。

 データウェアハウスに取り組んできたTeradataやIBMの目標は、数十ものデータベースに問い合わせることなく情報を分析し、意思決定を改善することだった。この技術は進化し続けてより大きく、速く、高精度でデータを処理できるようになった。

 だが、データウェアハウスはその役割を終える時期に来ていると考える専門家もいる。増え続けるデータ量、情報をより迅速に処理・分析するニーズ、リアルタイム性を含め、従来型のデータウェアハウスにはストレスが掛かっている。

データウェアハウスの限界?

iStock.com/fizkes

 データウェアハウスサプライヤーはクラウドとの競争にも直面している。オンプレミスのデータウェアハウスには数万ドルのコストがかかり、実装にも数カ月を要する。さらに重要なのは、クエリやデータ型の再構成にも数カ月かかることだ。

 PA Consultingのリチャード・バークレー氏は、従来型データウェアハウスはデータの急増に苦しんでいると言う。

 「クラウドは従来型データウェアハウスよりもはるかに高いスケーラビリティとアジリティーを実現する。クラウドは動的にスケーリングでき、クエリに必要な処理能力を利用するのは処理中のみだ。アイドル状態のインフラにコストをかける必要はない。個別のクエリはオンプレミスでできることをはるかに上回る形で拡張されるため、パフォーマンスが大幅に向上する」

 データウェアハウスが直面する課題はデータ量だけではない。単一のデータベースあるいは単一のデータウェアハウスの技術に縛られたくないと考える企業は多い。

 ソーシャルメディア、Eコマース、センサーやIoT(モノのインターネット)といったデータストリームから洞察を引き出そうと考える企業が増えている。データウェアハウスはデータスキーマと抽出、変換、読み込み(ETL)プロセスを備えているが、この種のクエリの処理に適した機敏性は備えていない。

 Pure Storageのアレックス・マクマラン氏(欧州、中東、アフリカ地域のCTO:最高技術責任者)は言う。

 「一晩かけてバッチレポートを作成し、カラー印刷してCEOに見せるようなことはなくなっている。人々はリアルタイムに分析する」と語り、アプリケーションは「ブラックボックス」の金融取引からセキュリティ監視まで実行していると補足する。

データレイク

 データウェアハウスの後継としてデータレイクが候補に挙がった時期もある。データレイクは多くの場合、未加工の情報をクラウドのオブジェクトストレージに格納する。

 データレイクはデータの前処理やクレンジングが不要で、構造化データも非構造化データも保持できるため設定や操作が迅速になる。データの処理やETLはアナリストがクエリを実行する時点で行う。

 データレイクは、従来のBI(ビジネスインテリジェンス)とは異なるAIなどの分野での利用が増えている。データウェアハウスのような強固な構造を採用していないため、BIを民主化すると表現されることもある。

 とはいえデータレイクにも欠点がある。データウェアハウスはその構造を利用してパフォーマンスを得ている。データレイクではそれが失われる恐れがある。

 dbInsightのトニー・ベア氏(アナリスト)は次のように話す。「データレイクにはルールがない。そのため必要以上のデータが収集され、活用されないままになる」

 これを解決するため、より多くのリソースを投入して「総当たりで問題に当たることでようやくデータウェアハウスに匹敵するパフォーマンスが得られる」と同氏は語る。

クエリとコストの管理

 こうした方法は非効率的でコストがかかる。ベア氏によると、Snowflakeなどのクラウド分析サプライヤーがクエリとコストを管理するための優れた「防御策」を構築しているという。

 データウェアハウスもデータレイクも企業のさまざまな要件をサポートするために存在する。データウェアハウスはクリーンで高品質なデータを使って何度も繰り返すクエリを実行するのに適しており、バッチ形式で実行されることが多い。データレイクは情報を掘り下げるため、よりアドホックで推論を含むこともあるアプローチをサポートする。

 「『what if』クエリを実行するなら、データレイクやドキュメント管理システムを使うだろう」とPure Storageのマクマラン氏は話す。同氏はデータレイクを「狩猟採取型」分析、データウェアハウスを「農業型」分析に使うと説明する。「狩猟採取型分析は同じ質問を繰り返すのではなく、問うべき質問を吟味する」(マクマラン氏)

 いずれにせよ、ストリーミングデータを処理する弾力性、速度、能力と、効率良くクエリを処理することを全て単一のプラットフォームに組み合わせることが業界の目標だ。

後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。

Copyright © ITmedia, Inc. All Rights Reserved.

ITmedia マーケティング新着記事

news132.jpg

ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。

news103.jpg

なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...

news160.jpg

業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...