データウェアハウスもデータレイクも限界が見えた今、各社は「次世代型データウェアハウス」で市場をリードしようとしている。最後に生き残るアーキテクチャとは?
前編(データウェアハウスとデータレイクが新時代に適応できない弱点)ではデータウェアハウスやデータレイクが直面している課題を解説した。後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。
このカテゴリーには、Databricksが採用したデータレイクハウスアプローチ、Snowflakeのクラウドベースのマルチクラスタアーキテクチャ、Amazon Web Servicesの「Amazon Redshift Spectrum」などがある。Redshift Spectrumは「Amazon S3」に保存したデータを「Amazon Redshift」(クラウドデータウェアハウス)にロードしてクエリを実行する。
業界では「Apache Hadoop」を中心にデータレイクを構築する試みが行われなくなっているが、それでも「Apache Spark」のような人気の高いオープンソースツールもある。
今は技術によってではなく、ビジネスの分析ニーズによって変化が促されることが多い。
Forrester Researchのノエル・ユハンナ氏(データ管理とデータウェアハウス担当アナリスト)は言う。「データの要件は5~10年前と異なっている。注目されているのは、顧客インテリジェンス、変化の分析、IoT分析だ。センサーデータやIoTデータなど、新世代のデータソースが登場している。こうしたデータソースに対応するためにデータウェアハウスも進化し、半構造化データや非構造化データを処理するようになっている」
クラウドによって弾力性やスケーラビリティが加わり、少なくともコストが20%削減される。状況によっては50~70%のコスト削減も可能だ。とはいえ、ペタバイト規模で分析システムを運用している企業はほとんどないと同氏は指摘する。Forresterは、そうした企業は3%未満と見積もっている。
大規模な分析システムを運用する企業は主に製造業や高度な測定を必要とする事業を営み、データフローを減らし、意思決定の速度を上げるためにエッジ処理や機械学習に注目する可能性が高い。
もう一つの変化がリアルタイム処理に向かう動きだ。Eコマース、エンターテインメント、ソーシャルメディアの「クリックストリーム」データは、情報の絶え間ない流れを生み出す。だが長期的価値は限られている。ストリーム分析に投資するとしたら、その情報にビジネスが反応できる場合のみだ。それには高度な自動化が必要だ。
こうした変化により、サプライヤーはデータレイクの柔軟性とデータウェアハウスの構造化処理を組み合わせ、両方の市場に対応できると主張するようになる。Databricksは同社のデータレイクハウスを利用すれば「全てのデータでBIと機械学習」が可能になるため、顧客はデータウェアハウスとデータレイクを両方運用する必要がなくなるという。
とはいえ、それが従来のデータウェアハウスの終わりを意味するかどうかは分からない。
DatabricksのCEOアリ・ゴッシ氏は次のように語る。「データレイクハウスがなければ世界は2つの異なる部分に分かれる。データウェアハウスのほとんどは過去に関するもので、『前四半期の収益はどうだったか』と問い掛けることができる。対極にあるのがAIで、ほとんどが未来に関するものだ。『どの顧客を失うだろうか。このエンジンは故障するだろうか』。こちらの方がより興味深い質問だ」
「データレイクハウスが未来の道だ。10年後、データウェアハウスが今のように使われることはないだろう。メインフレームのように存在としては残るだろうが、データレイクハウスがデータウェアハウスを取り込んでいくと考えている」(ゴッシ氏)
データウェアハウスがその役割を終えたと皆が考えているわけではない。Databricksのゴッシ氏が認めているように、有用である限りシステムは生き残る。新しいプラットフォームへの移行には本質的にリスクを伴う。ただし期待は大きい。「データレイク、そして新しいインフラモデルへというのはあまりにも短絡的過ぎる可能性があり、データの管理と統合という実際の複雑さの課題は解決できない」と話すのはPA Consultingのバークレー氏だ。
データから必要な洞察を得ている企業が大半だ。DataStaxのジョナサン・エリス氏(CTO)は言う。「データウェアハウスとデータレイクは密接な補完関係にある。データウェアハウスからTwitterやNetflixにサービスを提供することはない。『Apache Cassandra』からBIダッシュボードを提供することもない。ライブアプリケーションはCassandraで実行し、分析はデータウェアハウスで行う。業界を活性化させるのはストリーミング技術とデータウェアハウスの連携だ」
「データベースには厄介なところがある。データウェアハウスではSQLが広く使われているが、問題はその細部にある。最適なパフォーマンスを得るためにスキーマを設計する方法はサプライヤーごとに異なる」(エリス氏)
従来のサービスよりも柔軟性が高く、リアルタイムデータを適切に処理できる「脱構築型データウェアハウス(Deconstructed data warehouse)」を作成するために、オンプレミスとクラウド、オープンソースソフトウェアと専用ソフトウェアで構成されるハイブリッドモデルになると同氏は予測する。
業界関係者も同意見だ。単一の技術が全てに取って代わるのではなく、市場が多様化していく可能性が高いと見ている。少なくとも当面の間はデータウェアハウスが企業における「ゴールドコピー」であり続けるだろう。
Pure Storageのマクマラン氏は、データウェアハウスやデータレイクを利用し、さまざまなレンズを通してさまざまなデータセットを表示することになると予測する。「最新のデータセットにはそれに伴う要件がある。そのため以前よりもはるかに難しくなる。もはや、42Uの19インチラックで何が可能かという問題ではなくなっている」
Copyright © ITmedia, Inc. All Rights Reserved.
工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。
複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。