長い歴史を持つデータウェアハウスはもう不要だという専門家もいる。実際、データウェアハウスはニーズの変化に適応できていない。代わりに登場したデータレイクにも課題が見えてきた。
「データウェアハウス」という用語は1992年、米国のコンピュータ科学者ビル・インモン氏によってITの表舞台に押し上げられた(訳注)。
訳注:同氏の著作『Building the Data Warehouse』を指すと思われる。だがそれ以前からデータウェアハウスという用語やその定義は存在したという説もある。
データウェアハウスに取り組んできたTeradataやIBMの目標は、数十ものデータベースに問い合わせることなく情報を分析し、意思決定を改善することだった。この技術は進化し続けてより大きく、速く、高精度でデータを処理できるようになった。
だが、データウェアハウスはその役割を終える時期に来ていると考える専門家もいる。増え続けるデータ量、情報をより迅速に処理・分析するニーズ、リアルタイム性を含め、従来型のデータウェアハウスにはストレスが掛かっている。
データウェアハウスサプライヤーはクラウドとの競争にも直面している。オンプレミスのデータウェアハウスには数万ドルのコストがかかり、実装にも数カ月を要する。さらに重要なのは、クエリやデータ型の再構成にも数カ月かかることだ。
PA Consultingのリチャード・バークレー氏は、従来型データウェアハウスはデータの急増に苦しんでいると言う。
「クラウドは従来型データウェアハウスよりもはるかに高いスケーラビリティとアジリティーを実現する。クラウドは動的にスケーリングでき、クエリに必要な処理能力を利用するのは処理中のみだ。アイドル状態のインフラにコストをかける必要はない。個別のクエリはオンプレミスでできることをはるかに上回る形で拡張されるため、パフォーマンスが大幅に向上する」
データウェアハウスが直面する課題はデータ量だけではない。単一のデータベースあるいは単一のデータウェアハウスの技術に縛られたくないと考える企業は多い。
ソーシャルメディア、Eコマース、センサーやIoT(モノのインターネット)といったデータストリームから洞察を引き出そうと考える企業が増えている。データウェアハウスはデータスキーマと抽出、変換、読み込み(ETL)プロセスを備えているが、この種のクエリの処理に適した機敏性は備えていない。
Pure Storageのアレックス・マクマラン氏(欧州、中東、アフリカ地域のCTO:最高技術責任者)は言う。
「一晩かけてバッチレポートを作成し、カラー印刷してCEOに見せるようなことはなくなっている。人々はリアルタイムに分析する」と語り、アプリケーションは「ブラックボックス」の金融取引からセキュリティ監視まで実行していると補足する。
データウェアハウスの後継としてデータレイクが候補に挙がった時期もある。データレイクは多くの場合、未加工の情報をクラウドのオブジェクトストレージに格納する。
データレイクはデータの前処理やクレンジングが不要で、構造化データも非構造化データも保持できるため設定や操作が迅速になる。データの処理やETLはアナリストがクエリを実行する時点で行う。
データレイクは、従来のBI(ビジネスインテリジェンス)とは異なるAIなどの分野での利用が増えている。データウェアハウスのような強固な構造を採用していないため、BIを民主化すると表現されることもある。
とはいえデータレイクにも欠点がある。データウェアハウスはその構造を利用してパフォーマンスを得ている。データレイクではそれが失われる恐れがある。
dbInsightのトニー・ベア氏(アナリスト)は次のように話す。「データレイクにはルールがない。そのため必要以上のデータが収集され、活用されないままになる」
これを解決するため、より多くのリソースを投入して「総当たりで問題に当たることでようやくデータウェアハウスに匹敵するパフォーマンスが得られる」と同氏は語る。
こうした方法は非効率的でコストがかかる。ベア氏によると、Snowflakeなどのクラウド分析サプライヤーがクエリとコストを管理するための優れた「防御策」を構築しているという。
データウェアハウスもデータレイクも企業のさまざまな要件をサポートするために存在する。データウェアハウスはクリーンで高品質なデータを使って何度も繰り返すクエリを実行するのに適しており、バッチ形式で実行されることが多い。データレイクは情報を掘り下げるため、よりアドホックで推論を含むこともあるアプローチをサポートする。
「『what if』クエリを実行するなら、データレイクやドキュメント管理システムを使うだろう」とPure Storageのマクマラン氏は話す。同氏はデータレイクを「狩猟採取型」分析、データウェアハウスを「農業型」分析に使うと説明する。「狩猟採取型分析は同じ質問を繰り返すのではなく、問うべき質問を吟味する」(マクマラン氏)
いずれにせよ、ストリーミングデータを処理する弾力性、速度、能力と、効率良くクエリを処理することを全て単一のプラットフォームに組み合わせることが業界の目標だ。
後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
Omnicomが Interpublic Groupを買収 世界最大級の広告会社が誕生へ
OmnicomがInterpublic Group(IPG)を買収する。これにより、世界最大の広告会社が誕生し...
インテントデータ×キーエンス出身者のノウハウで実現 ABMを先に進める最先端の営業手法とは?
ユーソナーとGrand Centralは提携し、営業売り上げ拡大のためのBPOパッケージを提供開始...
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2024年12月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...