長い歴史を持つデータウェアハウスはもう不要だという専門家もいる。実際、データウェアハウスはニーズの変化に適応できていない。代わりに登場したデータレイクにも課題が見えてきた。
「データウェアハウス」という用語は1992年、米国のコンピュータ科学者ビル・インモン氏によってITの表舞台に押し上げられた(訳注)。
訳注:同氏の著作『Building the Data Warehouse』を指すと思われる。だがそれ以前からデータウェアハウスという用語やその定義は存在したという説もある。
データウェアハウスに取り組んできたTeradataやIBMの目標は、数十ものデータベースに問い合わせることなく情報を分析し、意思決定を改善することだった。この技術は進化し続けてより大きく、速く、高精度でデータを処理できるようになった。
だが、データウェアハウスはその役割を終える時期に来ていると考える専門家もいる。増え続けるデータ量、情報をより迅速に処理・分析するニーズ、リアルタイム性を含め、従来型のデータウェアハウスにはストレスが掛かっている。
データウェアハウスサプライヤーはクラウドとの競争にも直面している。オンプレミスのデータウェアハウスには数万ドルのコストがかかり、実装にも数カ月を要する。さらに重要なのは、クエリやデータ型の再構成にも数カ月かかることだ。
PA Consultingのリチャード・バークレー氏は、従来型データウェアハウスはデータの急増に苦しんでいると言う。
「クラウドは従来型データウェアハウスよりもはるかに高いスケーラビリティとアジリティーを実現する。クラウドは動的にスケーリングでき、クエリに必要な処理能力を利用するのは処理中のみだ。アイドル状態のインフラにコストをかける必要はない。個別のクエリはオンプレミスでできることをはるかに上回る形で拡張されるため、パフォーマンスが大幅に向上する」
データウェアハウスが直面する課題はデータ量だけではない。単一のデータベースあるいは単一のデータウェアハウスの技術に縛られたくないと考える企業は多い。
ソーシャルメディア、Eコマース、センサーやIoT(モノのインターネット)といったデータストリームから洞察を引き出そうと考える企業が増えている。データウェアハウスはデータスキーマと抽出、変換、読み込み(ETL)プロセスを備えているが、この種のクエリの処理に適した機敏性は備えていない。
Pure Storageのアレックス・マクマラン氏(欧州、中東、アフリカ地域のCTO:最高技術責任者)は言う。
「一晩かけてバッチレポートを作成し、カラー印刷してCEOに見せるようなことはなくなっている。人々はリアルタイムに分析する」と語り、アプリケーションは「ブラックボックス」の金融取引からセキュリティ監視まで実行していると補足する。
データウェアハウスの後継としてデータレイクが候補に挙がった時期もある。データレイクは多くの場合、未加工の情報をクラウドのオブジェクトストレージに格納する。
データレイクはデータの前処理やクレンジングが不要で、構造化データも非構造化データも保持できるため設定や操作が迅速になる。データの処理やETLはアナリストがクエリを実行する時点で行う。
データレイクは、従来のBI(ビジネスインテリジェンス)とは異なるAIなどの分野での利用が増えている。データウェアハウスのような強固な構造を採用していないため、BIを民主化すると表現されることもある。
とはいえデータレイクにも欠点がある。データウェアハウスはその構造を利用してパフォーマンスを得ている。データレイクではそれが失われる恐れがある。
dbInsightのトニー・ベア氏(アナリスト)は次のように話す。「データレイクにはルールがない。そのため必要以上のデータが収集され、活用されないままになる」
これを解決するため、より多くのリソースを投入して「総当たりで問題に当たることでようやくデータウェアハウスに匹敵するパフォーマンスが得られる」と同氏は語る。
こうした方法は非効率的でコストがかかる。ベア氏によると、Snowflakeなどのクラウド分析サプライヤーがクエリとコストを管理するための優れた「防御策」を構築しているという。
データウェアハウスもデータレイクも企業のさまざまな要件をサポートするために存在する。データウェアハウスはクリーンで高品質なデータを使って何度も繰り返すクエリを実行するのに適しており、バッチ形式で実行されることが多い。データレイクは情報を掘り下げるため、よりアドホックで推論を含むこともあるアプローチをサポートする。
「『what if』クエリを実行するなら、データレイクやドキュメント管理システムを使うだろう」とPure Storageのマクマラン氏は話す。同氏はデータレイクを「狩猟採取型」分析、データウェアハウスを「農業型」分析に使うと説明する。「狩猟採取型分析は同じ質問を繰り返すのではなく、問うべき質問を吟味する」(マクマラン氏)
いずれにせよ、ストリーミングデータを処理する弾力性、速度、能力と、効率良くクエリを処理することを全て単一のプラットフォームに組み合わせることが業界の目標だ。
後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
データ活用におけるさまざまな課題を解決するBIツール。近年は、その枠を超え、さらなるデータ活用を促進するデータ分析プラットフォームへの注目度が高まっている。3社の事例を基に、同製品の魅力と実力に迫る。
データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。
データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。
「人の動き」で見えない価値を見つけ出す 人流データが切り開く都市開発の未来 (2025/5/2)
導入の壁を突破してMicrosoft 365 Copilotを活用する方法 (2025/3/12)
クラウドの利便性とオンプレの制御性を両立、AI環境構築の新たな選択肢とは? (2025/3/6)
データ活用やAIで不良原因も発見 全員参加の現場伴走型で挑むトヨタ車体のDX (2025/2/21)
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...