従来型データウェアハウスでは分析できない、次世代ツールの「分析対象」:データウェアハウスの終わり【後編】
データウェアハウスもデータレイクも限界が見えた今、各社は「次世代型データウェアハウス」で市場をリードしようとしている。最後に生き残るアーキテクチャとは?
前編(データウェアハウスとデータレイクが新時代に適応できない弱点)ではデータウェアハウスやデータレイクが直面している課題を解説した。後編では、データウェアハウスやデータレイクの課題を解決する新たな製品カテゴリーを紹介する。
このカテゴリーには、Databricksが採用したデータレイクハウスアプローチ、Snowflakeのクラウドベースのマルチクラスタアーキテクチャ、Amazon Web Servicesの「Amazon Redshift Spectrum」などがある。Redshift Spectrumは「Amazon S3」に保存したデータを「Amazon Redshift」(クラウドデータウェアハウス)にロードしてクエリを実行する。
業界では「Apache Hadoop」を中心にデータレイクを構築する試みが行われなくなっているが、それでも「Apache Spark」のような人気の高いオープンソースツールもある。
技術よりも優先される重要な要素
今は技術によってではなく、ビジネスの分析ニーズによって変化が促されることが多い。
Forrester Researchのノエル・ユハンナ氏(データ管理とデータウェアハウス担当アナリスト)は言う。「データの要件は5〜10年前と異なっている。注目されているのは、顧客インテリジェンス、変化の分析、IoT分析だ。センサーデータやIoTデータなど、新世代のデータソースが登場している。こうしたデータソースに対応するためにデータウェアハウスも進化し、半構造化データや非構造化データを処理するようになっている」
クラウドによって弾力性やスケーラビリティが加わり、少なくともコストが20%削減される。状況によっては50〜70%のコスト削減も可能だ。とはいえ、ペタバイト規模で分析システムを運用している企業はほとんどないと同氏は指摘する。Forresterは、そうした企業は3%未満と見積もっている。
大規模な分析システムを運用する企業は主に製造業や高度な測定を必要とする事業を営み、データフローを減らし、意思決定の速度を上げるためにエッジ処理や機械学習に注目する可能性が高い。
もう一つの変化がリアルタイム処理に向かう動きだ。Eコマース、エンターテインメント、ソーシャルメディアの「クリックストリーム」データは、情報の絶え間ない流れを生み出す。だが長期的価値は限られている。ストリーム分析に投資するとしたら、その情報にビジネスが反応できる場合のみだ。それには高度な自動化が必要だ。
こうした変化により、サプライヤーはデータレイクの柔軟性とデータウェアハウスの構造化処理を組み合わせ、両方の市場に対応できると主張するようになる。Databricksは同社のデータレイクハウスを利用すれば「全てのデータでBIと機械学習」が可能になるため、顧客はデータウェアハウスとデータレイクを両方運用する必要がなくなるという。
とはいえ、それが従来のデータウェアハウスの終わりを意味するかどうかは分からない。
DatabricksのCEOアリ・ゴッシ氏は次のように語る。「データレイクハウスがなければ世界は2つの異なる部分に分かれる。データウェアハウスのほとんどは過去に関するもので、『前四半期の収益はどうだったか』と問い掛けることができる。対極にあるのがAIで、ほとんどが未来に関するものだ。『どの顧客を失うだろうか。このエンジンは故障するだろうか』。こちらの方がより興味深い質問だ」
「データレイクハウスが未来の道だ。10年後、データウェアハウスが今のように使われることはないだろう。メインフレームのように存在としては残るだろうが、データレイクハウスがデータウェアハウスを取り込んでいくと考えている」(ゴッシ氏)
バック・トゥ・ザ・フューチャー
データウェアハウスがその役割を終えたと皆が考えているわけではない。Databricksのゴッシ氏が認めているように、有用である限りシステムは生き残る。新しいプラットフォームへの移行には本質的にリスクを伴う。ただし期待は大きい。「データレイク、そして新しいインフラモデルへというのはあまりにも短絡的過ぎる可能性があり、データの管理と統合という実際の複雑さの課題は解決できない」と話すのはPA Consultingのバークレー氏だ。
データから必要な洞察を得ている企業が大半だ。DataStaxのジョナサン・エリス氏(CTO)は言う。「データウェアハウスとデータレイクは密接な補完関係にある。データウェアハウスからTwitterやNetflixにサービスを提供することはない。『Apache Cassandra』からBIダッシュボードを提供することもない。ライブアプリケーションはCassandraで実行し、分析はデータウェアハウスで行う。業界を活性化させるのはストリーミング技術とデータウェアハウスの連携だ」
「データベースには厄介なところがある。データウェアハウスではSQLが広く使われているが、問題はその細部にある。最適なパフォーマンスを得るためにスキーマを設計する方法はサプライヤーごとに異なる」(エリス氏)
従来のサービスよりも柔軟性が高く、リアルタイムデータを適切に処理できる「脱構築型データウェアハウス(Deconstructed data warehouse)」を作成するために、オンプレミスとクラウド、オープンソースソフトウェアと専用ソフトウェアで構成されるハイブリッドモデルになると同氏は予測する。
業界関係者も同意見だ。単一の技術が全てに取って代わるのではなく、市場が多様化していく可能性が高いと見ている。少なくとも当面の間はデータウェアハウスが企業における「ゴールドコピー」であり続けるだろう。
Pure Storageのマクマラン氏は、データウェアハウスやデータレイクを利用し、さまざまなレンズを通してさまざまなデータセットを表示することになると予測する。「最新のデータセットにはそれに伴う要件がある。そのため以前よりもはるかに難しくなる。もはや、42Uの19インチラックで何が可能かという問題ではなくなっている」
Copyright © ITmedia, Inc. All Rights Reserved.