データレイクとは何か――メリット、ストレージ、オンプレ/クラウドの是非データレイク構築のススメ【前編】

データレイクを構築するメリットは何か。データレイクに適したストレージとは何か。クラウド化すべきかオンプレミスで運用すべきか。基礎から解説する。

2021年04月07日 08時00分 公開
[Antony AdsheadComputer Weekly]

 DX(デジタルトランスフォーメーション)にとって大量データの処理は前提条件だ。その鍵となるのがデータレイクという概念だ。組織がデータから可能な限り価値を引き出そうと試みる際、データレイクがそのコアとなる。データレイクはデータ管理と分析の分野に属し、ストレージに依存する。クラウドへの移行の機が熟したアクティビティーだが、オンプレミスのままでも可能だ。

 本稿では、データレイクに必要なストレージ(多くの場合オブジェクトストレージ)と、オンプレミスとクラウドそれぞれの長所と短所を見ていく。

データレイクとデータウェアハウスの違い

 データレイクは、企業のデータが最初に流れ込む場所であると考えて構わない。集められた全データのリポジトリであり、大体のデータは未加工のまま存在する。

 データの検索を容易にするため、メタデータでタグ付けする場合もある。だがデータレイクのデータは、データサイエンティストやデータレイクの下流でタッチポイントを開発するスペシャリストがアクセスすることを目的とする。

 データレイクは、実際の湖(レイク)のようにあらゆるデータソースからそこにデータが流れ込む。そのデータの多くは多様かつ未処理のため、その下流工程が重要になる。

 データレイクから下流に流れるデータが行きつく先がデータウェアハウスだ。データはデータウェアハウスでさらに処理され、パッケージ化され、利用の準備が整っている状態だと想定される。

 データレイクには複数のデータストアが含まれている。大半の従業員にとっては簡単にアクセスや読み取りができない形式(非構造化、半構造化、構造化)になっている。これに対してデータウェアハウスは、アプリケーションや従業員がアクセスできるデータベース内に構造化データとして構成される。データマートやデータハブでは、部門ごとにさらに利用しやすいデータに加工される可能性がある。

 つまりデータレイクは大量のデータをそのデータ本来の形式で保持する。データウェアハウスやデータマートへのクエリとは異なり、データレイクへの問い合わせにはスキーマ・オン・リード(Schema on Read)のアプローチが必要だ。

データレイク:データ型とアクセス方式

 データレイク内のデータのソースには、組織あるいはその各部門の全データが含まれる。リレーショナルデータベースの構造化データ、CSVファイルやログファイル、XML形式やJSON形式などの半構造化データ、メール、ドキュメントやPDFのような非構造化データ、画像、音声、動画のようなバイナリデータが含まれる可能性がある。

 ストレージプロトコルに関しては、ファイル、ブロック、オブジェクトの各ストレージのデータを収容する必要があることになる。だが、データレイク自体のプロトコルとして一般的に選択されるのはオブジェクトストレージだ。覚えておきたいのは、ここでアクセスされるのはデータ自体ではなく、そのデータを説明するメタデータヘッダだ。メタデータヘッダは、データベースから写真まであらゆるものに添付できる。多くの場合、データへの詳細なクエリはデータレイクではなく他の場所で行われる。

 オブジェクトストレージは、大量のデータを非構造化データとして格納するのに非常に適している。ブロックストレージのデータベースのようにクエリを実行することはできないが、複数の種類のオブジェクトを大きなフラット構造に格納でき、そこに何があるかを調べることが可能だ。

 オブジェクトストレージは通常、高速性を目的とした設計にはなっていない。そのためオブジェクトストレージは、データウェアハウスのリレーショナルデータベースよりもクエリの構築や処理が複雑なデータレイクのユースケースに適している。データレイクレベルでのクエリ処理の多くでは、より容易にクエリできるデータストアを下流のデータウェアハウス用に用意することになる。

オンプレミスとクラウドのデータレイク

 オンプレミスとクラウドの比較で行われる全ての議論がデータレイクの運用にも当てはまる。

 オンプレミスのデータレイクは、設置スペースと電力、設計、ハードウェアとソフトウェアの調達、管理、それを運用するスキル、それら全ての領域に対応するコストを考慮しなければならない。

 データレイクをクラウドに外部委託することは、設備投資(CAPEX)費用をクラウドプロバイダーへの支払いという運用支出(OPEX)費用にオフロードするというメリットがある。ただし、データの増加やクラウドとオンプレミス間のデータ移動は課金対象となることもあるため、予期しないコストが発生する可能性がある。

 ストレージやデータレイクのアーキテクチャだけでなく、コンプライアンスや接続性などについても考慮する必要がある。

 もちろん、クラウドとオンプレミスの両方で運用し、必要に応じてクラウドにバーストすることも可能だ。

後編では、オンプレミスのデータレイク製品と3大クラウドベンダーのデータレイクサービスを紹介する。

ITmedia マーケティング新着記事

news171.png

2024年のGW予算は横ばい 賃上げよりも物価高と円安の影響が勝る?――インテージ調査
インテージが全国の15歳から79歳の男女を対象に実施したゴールデンウイークに関する調査...

news148.jpg

CNN幹部が語る、メディアビジネスにとってのAIのリスクと機会
生成AIがコンテンツを量産し、真偽の明らかでない情報があふれかえる中、メディアの価値...

news016.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2024年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。