データレイクの構築を決断したとして、オンプレミスで運用するのが適切なのか。クラウドを利用すべきなのか。各社の製品とサービスを紹介する。
前編(データレイクとは何か――メリット、ストレージ、オンプレ/クラウドの是非)では、データレイクの基礎を解説した。後編では、オンプレミスのデータレイク製品と3大クラウドベンダーのデータレイクサービスを紹介する。
データレイクにはかなりのストレージ容量が必要になることが多い。大企業のデータレイクは間違いなくこれが当てはまる。
ここ10年、ストレージベンダーはデータレイク製品を使って市場に探りを入れていたように思える。EMCは2015年に「Federation Business Data Lake」を発表した。同製品はEMCのストレージとVMwareおよびPivotalのビッグデータ製品を組み合わせたものだ。
だが、これは短命だったようだ。Dell EMC(訳注)は、2017年にデータレイクデプロイメントをターゲットにする「Elastic Data Platform」をリリースした。
訳注:EMCは2016年にDellに買収されてDell EMCとなった。この前後で「EMC」「Dell EMC」表記が混在することに注意。
Dell EMCは他にも、データレイクをターゲットとするスケールアウトNASの「Isilon」(現PowerScale)シリーズを提供している。
Hitachi Vantaraは分析、ビッグデータ、モノのインターネット(IoT)に重点を置いている。同社はストレージの「Hitachi Content Platform」をベースに、IoTプラットフォームの「Lumada」とデータ統合環境の「Pentaho」を組み合わせてデータレイク機能を提供する。
Pentahoのデータ統合と分析はビッグデータを対象とする。レポートと分析にはリモートアクセスが可能だ。ユーザーがデータにリモートアクセスできれば、どこからでもそのデータを処理して利用できる。Pentahoは「Hadoop」「Apache Spark」、NoSQLのデータストアや分析データベースをサポートする。LumadaはPentahoのデータオーケストレーション、可視化、分析ソフトウェアを使用する。
IBMもデータレイクに対応するストレージベンダーに分類される。同社はClouderaと提携してデータレイクソリューションを提供している。Clouderaの製品は大量データのオーケストレーションと分析を可能にするデータ管理プラットフォームだ。
NetAppはデータレイクについては大手とは言えないが、ビッグデータ、Hadoop、Splunk向けのストレージとして「ONTAP」対応のアレイを提供する。
HPEもデータレイクに対する特別な取り組みは行っていないが、同社の従量課金制製品ポートフォリオ「GreenLake」を使ってデータレイクを構築することは可能だ。
どのベンダーのハードウェアでもデータレイクを構築できる。市販のホワイトボックスキットも人気の高い選択肢の一つだ。数社の大手ストレージベンダーはデータレイクアプライアンスも検討し、データレイク用に調整した製品を短期間提供したようだ。だが、そうしたプロジェクトは多くの仕組みを必要とする大きなプロジェクトになるため、コンサルティングやソリューション形式のアプローチにより力を注ぐようになっている。
ハードウェアベンダー各社はデータレイク製品に手を出したが、マーケティング部門や販売部門にとってデータレイクは不確定な分野であり、最終的にはコンサルティング部門が対応すると結論付けたようだ。
大手クラウドプロバイダーはこれと逆の方向に進み、クラウド大手3社は定義済みのデータレイクサービスを提供している。
Amazon Web Services(AWS)のデータレイクは、1つのコンソールを提供することだ。ユーザーは、利用できるデータセットをそのコンソールで検索、参照可能だ。企業全体や外部ユーザーの特定サブセットのタグ付け、検索、共有、変換、分析、管理もできる。
このサービスは「Amazon S3」をベースとして、
などのAWSサービスをまとめたものだ。
「Microsoft Azure」のデータレイクサービスも同様の方針に沿っており、ペタバイト規模のデータに対して、(Azure独自の)U-SQL、R、Python、.NETの各言語によるデータ変換と処理のプログラムを大規模に並列実行する機能を提供する。
その後、「Azure HDInsight」を使用できる。これはオープンソースのマネージド分析サービスで、Hadoop、Spark、「Apache Hive」「Hive LLAP」(Low Latency Analytical Processing)、「Apache Kafka」「Apache Storm」、Rなどのフレームワークを含む。
「Google Cloud Platform」(GCP)のデータレイクデプロイメントは、AWSとAzureに比べればやや一体感が少ないように感じられる。GCP上にデータレイクを構築できるのは間違いない。TwitterがGCP上にデータレイクを構築していることをその証しとしている。だが、他2社の既成サービスに比べれば、恐らくコンサルティングに重点を置くプロジェクトだと言える。
データレイクという考え方が役立つ概念であることは間違いない。全データが流れ込む1つのリポジトリを用意し、そこでデータを選択して容易にアクセスできるようにするというのは優れた考え方だ。
データレイクには特定の種類のストレージが適していることも簡単に分かる。データレイクは即時性や迅速性が必要とされないため、オブジェクトストレージのような安価で大規模なストレージが理想的だ。
興味深いのは、オンプレミスストレージのベンダーがビッグデータやデータレイクを大きく取り上げ、場合によってはデータレイクアプライアンスというアイデアさえ掲げているように思えることだ。
だが、現実的にはデータレイクの展開はかなり大規模になり、複数の仕組みが必要になるため個別の製品にはあまり適していない。データレイク構築への道筋を示すコンサルティングやサービスを提供しない限り、ハードウェアベンダーが取り組み進めていくのはかなり難しい。
大手クラウドプロバイダーは、各種ソリューションを比較的容易に組み合わせてデータレイクを構築することができた。少なくともAWSとAzureのデータレイクはしっかりと定義され、優れたものになっている。
Copyright © ITmedia, Inc. All Rights Reserved.
工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。
複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。