データレイク、オンプレ運用か？　クラウド利用か？：データレイク構築のススメ【後編】

データレイクの構築を決断したとして、オンプレミスで運用するのが適切なのか。クラウドを利用すべきなのか。各社の製品とサービスを紹介する。

≫ 2021年04月14日 08時00分公開

[Antony Adshead，Computer Weekly]

　前編（データレイクとは何か――メリット、ストレージ、オンプレ／クラウドの是非）では、データレイクの基礎を解説した。後編では、オンプレミスのデータレイク製品と3大クラウドベンダーのデータレイクサービスを紹介する。

オンプレミスのデータレイク製品

　データレイクにはかなりのストレージ容量が必要になることが多い。大企業のデータレイクは間違いなくこれが当てはまる。

　ここ10年、ストレージベンダーはデータレイク製品を使って市場に探りを入れていたように思える。EMCは2015年に「Federation Business Data Lake」を発表した。同製品はEMCのストレージとVMwareおよびPivotalのビッグデータ製品を組み合わせたものだ。

　だが、これは短命だったようだ。Dell EMC（訳注）は、2017年にデータレイクデプロイメントをターゲットにする「Elastic Data Platform」をリリースした。

訳注：EMCは2016年にDellに買収されてDell EMCとなった。この前後で「EMC」「Dell EMC」表記が混在することに注意。

　Dell EMCは他にも、データレイクをターゲットとするスケールアウトNASの「Isilon」（現PowerScale）シリーズを提供している。

　Hitachi Vantaraは分析、ビッグデータ、モノのインターネット（IoT）に重点を置いている。同社はストレージの「Hitachi Content Platform」をベースに、IoTプラットフォームの「Lumada」とデータ統合環境の「Pentaho」を組み合わせてデータレイク機能を提供する。

　Pentahoのデータ統合と分析はビッグデータを対象とする。レポートと分析にはリモートアクセスが可能だ。ユーザーがデータにリモートアクセスできれば、どこからでもそのデータを処理して利用できる。Pentahoは「Hadoop」「Apache Spark」、NoSQLのデータストアや分析データベースをサポートする。LumadaはPentahoのデータオーケストレーション、可視化、分析ソフトウェアを使用する。

　IBMもデータレイクに対応するストレージベンダーに分類される。同社はClouderaと提携してデータレイクソリューションを提供している。Clouderaの製品は大量データのオーケストレーションと分析を可能にするデータ管理プラットフォームだ。

　NetAppはデータレイクについては大手とは言えないが、ビッグデータ、Hadoop、Splunk向けのストレージとして「ONTAP」対応のアレイを提供する。

　HPEもデータレイクに対する特別な取り組みは行っていないが、同社の従量課金制製品ポートフォリオ「GreenLake」を使ってデータレイクを構築することは可能だ。

　どのベンダーのハードウェアでもデータレイクを構築できる。市販のホワイトボックスキットも人気の高い選択肢の一つだ。数社の大手ストレージベンダーはデータレイクアプライアンスも検討し、データレイク用に調整した製品を短期間提供したようだ。だが、そうしたプロジェクトは多くの仕組みを必要とする大きなプロジェクトになるため、コンサルティングやソリューション形式のアプローチにより力を注ぐようになっている。

クラウドの参入

　ハードウェアベンダー各社はデータレイク製品に手を出したが、マーケティング部門や販売部門にとってデータレイクは不確定な分野であり、最終的にはコンサルティング部門が対応すると結論付けたようだ。

　大手クラウドプロバイダーはこれと逆の方向に進み、クラウド大手3社は定義済みのデータレイクサービスを提供している。

　Amazon Web Services（AWS）のデータレイクは、1つのコンソールを提供することだ。ユーザーは、利用できるデータセットをそのコンソールで検索、参照可能だ。企業全体や外部ユーザーの特定サブセットのタグ付け、検索、共有、変換、分析、管理もできる。

　このサービスは「Amazon S3」をベースとして、

AWS Lambda（サーバレスサービス）
Amazon Elasticsearch Service（Elasticsearchサービス）
Amazon Cognito（ユーザー認証）
AWS Glue（ETL：収集、変換、送信ツール）
Amazon Athena（S3データクエリ）

などのAWSサービスをまとめたものだ。

　「Microsoft Azure」のデータレイクサービスも同様の方針に沿っており、ペタバイト規模のデータに対して、（Azure独自の）U-SQL、R、Python、.NETの各言語によるデータ変換と処理のプログラムを大規模に並列実行する機能を提供する。

　その後、「Azure HDInsight」を使用できる。これはオープンソースのマネージド分析サービスで、Hadoop、Spark、「Apache Hive」「Hive LLAP」（Low Latency Analytical Processing）、「Apache Kafka」「Apache Storm」、Rなどのフレームワークを含む。

　「Google Cloud Platform」（GCP）のデータレイクデプロイメントは、AWSとAzureに比べればやや一体感が少ないように感じられる。GCP上にデータレイクを構築できるのは間違いない。TwitterがGCP上にデータレイクを構築していることをその証しとしている。だが、他2社の既成サービスに比べれば、恐らくコンサルティングに重点を置くプロジェクトだと言える。

クラウドプロバイダーが定義の明確さを高めるデータレイク

　データレイクという考え方が役立つ概念であることは間違いない。全データが流れ込む1つのリポジトリを用意し、そこでデータを選択して容易にアクセスできるようにするというのは優れた考え方だ。

　データレイクには特定の種類のストレージが適していることも簡単に分かる。データレイクは即時性や迅速性が必要とされないため、オブジェクトストレージのような安価で大規模なストレージが理想的だ。

　興味深いのは、オンプレミスストレージのベンダーがビッグデータやデータレイクを大きく取り上げ、場合によってはデータレイクアプライアンスというアイデアさえ掲げているように思えることだ。

　だが、現実的にはデータレイクの展開はかなり大規模になり、複数の仕組みが必要になるため個別の製品にはあまり適していない。データレイク構築への道筋を示すコンサルティングやサービスを提供しない限り、ハードウェアベンダーが取り組み進めていくのはかなり難しい。

　大手クラウドプロバイダーは、各種ソリューションを比較的容易に組み合わせてデータレイクを構築することができた。少なくともAWSとAzureのデータレイクはしっかりと定義され、優れたものになっている。

TechTargetジャパントップデータ分析