「データレイク」のノウハウ、賢い使い方のヒント

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、データレイクに関する運用&Tipsの記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

データレイクとは何か

 データレイクは膨大な量の生データを保持するストレージリポジトリだ。主にファイルまたはオブジェクトストレージを利用して、データを保存する。これによりユーザーはデータ分析や保存がより容易になる。(続きはページの末尾にあります)

データレイク関連の運用&Tips

データレイクとは何か――メリット、ストレージ、オンプレ/クラウドの是非

データレイクを構築するメリットは何か。データレイクに適したストレージとは何か。クラウド化すべきかオンプレミスで運用すべきか。基礎から解説する。

(2021/4/7)

データレイクの仕組みや用途、DWHとの違いを解説

 データレイクは一般的に、オープンソースの分散処理プラットフォーム「Apache Hadoop」(Hadoop)と関連付けられる場合がある。この場合、データはHadoopの分散ファイルシステム(HDFS)に読み込まれて、Hadoopクラスタのさまざまなノード(コンピュータ)に保存される。

 データレイク自体は、Hadoopではなくクラウドベンダーのオブジェクトストレージサービスに構築する事例もある。「NoSQL」データベースをデータレイクとして使用することもある。

組織がデータレイクを使用する理由

 データレイクには通常、構造化データや非構造化データ、半構造化データが混ざったビッグデータが保存される。こうしたデータが混在する状況は、リレーショナルデータベース(RDBMS)で構築したデータウェアハウス(DWH)には適していない。RDBMSを利用するには、データに対して厳格なスキーマ(データ構造)を定義することが必要だ。そのため通常は構造化されたデータの保存に制限される。データレイクはさまざまなスキーマのデータを格納でき、データの前処理を必要としない。

 企業は主に、データマイニングや予測モデリング、機械学習などのデータ分析技術や、その他のデータサイエンスアプリケーションのデータソースとしてデータレイクを利用できる。データレイクは、データサイエンティストやアナリストが関連データの検索や準備、分析するための中心的な場所を提供する。データを集約するデータレイクがなければ、データ活用のプロセスはより複雑になる。組織がデータ資産を最大限に活用して、より情報に基づいたビジネス上の意思決定や戦略を推進するために、データレイクが必要になる。

データレイクとDWHを比較

 データレイクとDWHの最大の違いは、格納できるデータの形式だ。主に構造化データを保存するDWHでは、データセットのスキーマがあらかじめ定義されている。データをDWHにロードする前に、そのデータの処理や変換、使用するための計画を立てる必要がある。

 データレイクの場合は必ずしもそうではない。データレイクはさまざまな種類のデータを格納できる。それらのデータに対してスキーマを定義したり、データの使用方法に関する具体的な計画を立てたりする必要はない。

 大抵の組織は、データレイクとDWHの両方を使用している。データレイクはDWHを置き換えるシステムではなく、両者は相互に補完する関係だ。

 データレイクとDWHは主要なデータソースが異なる。データレイクには通常、業務アプリケーションに加えWebサイトやIoTデバイス、ソーシャルメディア、モバイルアプリケーションなどの社内外のさまざまなデータソースから取得したデータを保存する。DWHに保存されるデータは主に社内の業務アプリケーションから抽出され、BI(ビジネスインテリジェンス)やレポート作成時に役立つ。

 DWHに格納されるデータは、前処理やデータクレンジングが完了しているデータだ。一方でデータレイク内のデータはさまざまなソースからそのまま取り込まれており、正確性が確保されないため、データ分析にそのまま使うことが難しい。

 データレイク内のデータは前処理がされておらず、さまざまなデータソースから取得されているため、BIユーザーがデータを利用したり、データレイク自体を管理したりするのには適していない。データレイクは主に、データを抽出して前処理するスキルを持つデータサイエンティストが使用する。DWHは前処理済みのデータを保管するため、BIチームやアナリスト、セルフサービスBIのユーザーがデータを分析するためのデータソースとして役立つ。

 拡張性の点では、データレイクの方がDWHよりも優れている傾向にある。データレイクは変化するデータの形式やビジネスのニーズに合わせて、必要に応じて再構成および拡張できる。データウェアハウスは、スキーマやデータソースが厳密に定義されているため、システムの更改や拡張が難しい。

データレイクがもたらすメリット

 データレイクは、高度なデータ分析のためのインフラになる。データ分析をスムーズに実行することで、組織はビジネスのトレンドや機会を特定できるようになる。例えば企業はデータレイクのデータを用いて顧客の購買行動に関する予測モデルを構築し、オンライン広告や販促キャンペーンを改善できる。リスク管理や不正検出、機器のメンテナンス、その他のデータ分析が必要な業務にも役立つ。データレイクは、予測モデリングや機械学習、統計分析、テキストマイニング、リアルタイム分析など、さまざまな分析方法を使用するための基本的なインフラになる。

 DWHと同様に、データレイクはさまざまなシステムのデータセットを1つのリポジトリに結合することで、データのサイロ化を解消するのに役立つ。データサイエンスチームは利用可能なデータを確認しやすくなるため、関連するデータを見つけて分析用に準備するプロセスが簡素化できる。組織内で役割が重複するデータ管理システムを一元化できるため、データ管理コストの削減にも役立つ。

 データレイクの構築に使用するHadoopやデータ分析フレームワークの「Apache Spark」(Spark)などの技術はオープンソースで、低コストなハードウェアでも実行できるため、データレイクの実装コストは抑えることが可能だ。スキーマの設計やデータのクレンジング、変換、準備などの作業は、データに対して明確なニーズが生じるまで延期できる。

主なデータレイクベンダー

 Apache Software FoundationはHadoopやSparkなど、データレイクに利用できるさまざまなオープンソースソフトウェア(OSS)を開発している。Linux Foundationをはじめとしたその他の組織も、オープンソースのデータレイク技術を主導している。

 OSSは無料でダウンロードして使用できる。OSSの技術を組み込んだ商用バージョンのソフトウェアを提供し、ユーザー企業に技術サポートサービスを提供するデータレイクベンダーもある。

 一部のベンダーは、独自のデータレイクソフトウェアの開発提供をしている。データレイクを含むデータ分析システムを提供するベンダーもあれば、ユーザー企業がデータレイクを構築、管理するのに役立つツールを提供するベンダーもある。著名なベンダーを以下で紹介する。

  • Amazon Web Services(AWS)
    • データ処理実行サービス「Amazon Elastic MapReduce」(Amazon EMR)やオブジェクトストレージサービス「Amazon S3」、データレイク構築サービス「AWS Lake Formation」、ETL(データの抽出、変換、読み込み)サービス「AWS Glue」などのサービスを組み合わせて、データレイクを構築できる。
  • Cloudera
    • データ分析製品群の「Cloudera Data Platform」は、パブリッククラウドインフラまたはハイブリッドクラウドインフラに導入できる。データレイクの構築と管理のための機能に加え、リアルタイムデータ分析や機械学習のための機能などを備える。
  • Databricks。
    • Sparkの開発者によって設立された同社は、データレイクとDWHの両方の要素を組み合わせたクラウドデータレイクサービスを提供する。
  • Dremio Corporation
    • 同社はBIダッシュボードの設計やデータ レイク管理が実行できるクラウドサービス「Dremio Lakehouse Management for Apache Iceberg」を販売している。
  • Google
    • 分散処理サービス「Cloud Dataproc」やクラウドストレージサービス「Google Cloud Storage」、ETLサービスの「Cloud Data Fusion」を組み合わせてデータレイクを構築できる。
  • Hewlett Packard Enterprise(HPE)
    • オンプレミスインフラ向けサービス群「HPE GreenLake」は、ファイルストレージとオブジェクトストレージの両方と、Sparkを基にしたデータレイクハウスサービスが使用可能だ。これにより、ハイブリッドクラウドでのデータレイク構築を支援する。
  • Microsoft
    • HadoopやSparkなどを実行するデータ分析サービス「Azure HDInsight」やオブジェクトストレージサービス「Azure Blob Storage」、Azure Blob Storageを使いデータレイクを構築するための機能「Azure Data Lake Storage Gen2」を提供している。
  • Qubole
    • 「Qubole Open Data Lake Platform」は、データ管理やエンジニアリング、ガバナンス機能を備えたデータレイクサービスだ。さまざまな分析アプリケーションと連携できる。
  • Snowflake
    • 同社はクラウドDWHが主力サービスだが、データレイクとしても利用できるサービスを提供している。