データレイクは膨大な量の生データを保持するストレージリポジトリだ。主にファイルまたはオブジェクトストレージを利用して、データを保存する。これによりユーザーはデータ分析や保存がより容易になる。(続きはページの末尾にあります)
データレイクを構築するメリットは何か。データレイクに適したストレージとは何か。クラウド化すべきかオンプレミスで運用すべきか。基礎から解説する。
データレイクは一般的に、オープンソースの分散処理プラットフォーム「Apache Hadoop」(Hadoop)と関連付けられる場合がある。この場合、データはHadoopの分散ファイルシステム(HDFS)に読み込まれて、Hadoopクラスタのさまざまなノード(コンピュータ)に保存される。
データレイク自体は、Hadoopではなくクラウドベンダーのオブジェクトストレージサービスに構築する事例もある。「NoSQL」データベースをデータレイクとして使用することもある。
データレイクには通常、構造化データや非構造化データ、半構造化データが混ざったビッグデータが保存される。こうしたデータが混在する状況は、リレーショナルデータベース(RDBMS)で構築したデータウェアハウス(DWH)には適していない。RDBMSを利用するには、データに対して厳格なスキーマ(データ構造)を定義することが必要だ。そのため通常は構造化されたデータの保存に制限される。データレイクはさまざまなスキーマのデータを格納でき、データの前処理を必要としない。
企業は主に、データマイニングや予測モデリング、機械学習などのデータ分析技術や、その他のデータサイエンスアプリケーションのデータソースとしてデータレイクを利用できる。データレイクは、データサイエンティストやアナリストが関連データの検索や準備、分析するための中心的な場所を提供する。データを集約するデータレイクがなければ、データ活用のプロセスはより複雑になる。組織がデータ資産を最大限に活用して、より情報に基づいたビジネス上の意思決定や戦略を推進するために、データレイクが必要になる。
データレイクとDWHの最大の違いは、格納できるデータの形式だ。主に構造化データを保存するDWHでは、データセットのスキーマがあらかじめ定義されている。データをDWHにロードする前に、そのデータの処理や変換、使用するための計画を立てる必要がある。
データレイクの場合は必ずしもそうではない。データレイクはさまざまな種類のデータを格納できる。それらのデータに対してスキーマを定義したり、データの使用方法に関する具体的な計画を立てたりする必要はない。
大抵の組織は、データレイクとDWHの両方を使用している。データレイクはDWHを置き換えるシステムではなく、両者は相互に補完する関係だ。
データレイクとDWHは主要なデータソースが異なる。データレイクには通常、業務アプリケーションに加えWebサイトやIoTデバイス、ソーシャルメディア、モバイルアプリケーションなどの社内外のさまざまなデータソースから取得したデータを保存する。DWHに保存されるデータは主に社内の業務アプリケーションから抽出され、BI(ビジネスインテリジェンス)やレポート作成時に役立つ。
DWHに格納されるデータは、前処理やデータクレンジングが完了しているデータだ。一方でデータレイク内のデータはさまざまなソースからそのまま取り込まれており、正確性が確保されないため、データ分析にそのまま使うことが難しい。
データレイク内のデータは前処理がされておらず、さまざまなデータソースから取得されているため、BIユーザーがデータを利用したり、データレイク自体を管理したりするのには適していない。データレイクは主に、データを抽出して前処理するスキルを持つデータサイエンティストが使用する。DWHは前処理済みのデータを保管するため、BIチームやアナリスト、セルフサービスBIのユーザーがデータを分析するためのデータソースとして役立つ。
拡張性の点では、データレイクの方がDWHよりも優れている傾向にある。データレイクは変化するデータの形式やビジネスのニーズに合わせて、必要に応じて再構成および拡張できる。データウェアハウスは、スキーマやデータソースが厳密に定義されているため、システムの更改や拡張が難しい。
データレイクは、高度なデータ分析のためのインフラになる。データ分析をスムーズに実行することで、組織はビジネスのトレンドや機会を特定できるようになる。例えば企業はデータレイクのデータを用いて顧客の購買行動に関する予測モデルを構築し、オンライン広告や販促キャンペーンを改善できる。リスク管理や不正検出、機器のメンテナンス、その他のデータ分析が必要な業務にも役立つ。データレイクは、予測モデリングや機械学習、統計分析、テキストマイニング、リアルタイム分析など、さまざまな分析方法を使用するための基本的なインフラになる。
DWHと同様に、データレイクはさまざまなシステムのデータセットを1つのリポジトリに結合することで、データのサイロ化を解消するのに役立つ。データサイエンスチームは利用可能なデータを確認しやすくなるため、関連するデータを見つけて分析用に準備するプロセスが簡素化できる。組織内で役割が重複するデータ管理システムを一元化できるため、データ管理コストの削減にも役立つ。
データレイクの構築に使用するHadoopやデータ分析フレームワークの「Apache Spark」(Spark)などの技術はオープンソースで、低コストなハードウェアでも実行できるため、データレイクの実装コストは抑えることが可能だ。スキーマの設計やデータのクレンジング、変換、準備などの作業は、データに対して明確なニーズが生じるまで延期できる。
Apache Software FoundationはHadoopやSparkなど、データレイクに利用できるさまざまなオープンソースソフトウェア(OSS)を開発している。Linux Foundationをはじめとしたその他の組織も、オープンソースのデータレイク技術を主導している。
OSSは無料でダウンロードして使用できる。OSSの技術を組み込んだ商用バージョンのソフトウェアを提供し、ユーザー企業に技術サポートサービスを提供するデータレイクベンダーもある。
一部のベンダーは、独自のデータレイクソフトウェアの開発提供をしている。データレイクを含むデータ分析システムを提供するベンダーもあれば、ユーザー企業がデータレイクを構築、管理するのに役立つツールを提供するベンダーもある。著名なベンダーを以下で紹介する。