データレイクを構築するメリットは何か。データレイクに適したストレージとは何か。クラウド化すべきかオンプレミスで運用すべきか。基礎から解説する。
DX(デジタルトランスフォーメーション)にとって大量データの処理は前提条件だ。その鍵となるのがデータレイクという概念だ。組織がデータから可能な限り価値を引き出そうと試みる際、データレイクがそのコアとなる。データレイクはデータ管理と分析の分野に属し、ストレージに依存する。クラウドへの移行の機が熟したアクティビティーだが、オンプレミスのままでも可能だ。
本稿では、データレイクに必要なストレージ(多くの場合オブジェクトストレージ)と、オンプレミスとクラウドそれぞれの長所と短所を見ていく。
データレイクは、企業のデータが最初に流れ込む場所であると考えて構わない。集められた全データのリポジトリであり、大体のデータは未加工のまま存在する。
データの検索を容易にするため、メタデータでタグ付けする場合もある。だがデータレイクのデータは、データサイエンティストやデータレイクの下流でタッチポイントを開発するスペシャリストがアクセスすることを目的とする。
データレイクは、実際の湖(レイク)のようにあらゆるデータソースからそこにデータが流れ込む。そのデータの多くは多様かつ未処理のため、その下流工程が重要になる。
データレイクから下流に流れるデータが行きつく先がデータウェアハウスだ。データはデータウェアハウスでさらに処理され、パッケージ化され、利用の準備が整っている状態だと想定される。
データレイクには複数のデータストアが含まれている。大半の従業員にとっては簡単にアクセスや読み取りができない形式(非構造化、半構造化、構造化)になっている。これに対してデータウェアハウスは、アプリケーションや従業員がアクセスできるデータベース内に構造化データとして構成される。データマートやデータハブでは、部門ごとにさらに利用しやすいデータに加工される可能性がある。
つまりデータレイクは大量のデータをそのデータ本来の形式で保持する。データウェアハウスやデータマートへのクエリとは異なり、データレイクへの問い合わせにはスキーマ・オン・リード(Schema on Read)のアプローチが必要だ。
データレイク内のデータのソースには、組織あるいはその各部門の全データが含まれる。リレーショナルデータベースの構造化データ、CSVファイルやログファイル、XML形式やJSON形式などの半構造化データ、メール、ドキュメントやPDFのような非構造化データ、画像、音声、動画のようなバイナリデータが含まれる可能性がある。
ストレージプロトコルに関しては、ファイル、ブロック、オブジェクトの各ストレージのデータを収容する必要があることになる。だが、データレイク自体のプロトコルとして一般的に選択されるのはオブジェクトストレージだ。覚えておきたいのは、ここでアクセスされるのはデータ自体ではなく、そのデータを説明するメタデータヘッダだ。メタデータヘッダは、データベースから写真まであらゆるものに添付できる。多くの場合、データへの詳細なクエリはデータレイクではなく他の場所で行われる。
オブジェクトストレージは、大量のデータを非構造化データとして格納するのに非常に適している。ブロックストレージのデータベースのようにクエリを実行することはできないが、複数の種類のオブジェクトを大きなフラット構造に格納でき、そこに何があるかを調べることが可能だ。
オブジェクトストレージは通常、高速性を目的とした設計にはなっていない。そのためオブジェクトストレージは、データウェアハウスのリレーショナルデータベースよりもクエリの構築や処理が複雑なデータレイクのユースケースに適している。データレイクレベルでのクエリ処理の多くでは、より容易にクエリできるデータストアを下流のデータウェアハウス用に用意することになる。
オンプレミスとクラウドの比較で行われる全ての議論がデータレイクの運用にも当てはまる。
オンプレミスのデータレイクは、設置スペースと電力、設計、ハードウェアとソフトウェアの調達、管理、それを運用するスキル、それら全ての領域に対応するコストを考慮しなければならない。
データレイクをクラウドに外部委託することは、設備投資(CAPEX)費用をクラウドプロバイダーへの支払いという運用支出(OPEX)費用にオフロードするというメリットがある。ただし、データの増加やクラウドとオンプレミス間のデータ移動は課金対象となることもあるため、予期しないコストが発生する可能性がある。
ストレージやデータレイクのアーキテクチャだけでなく、コンプライアンスや接続性などについても考慮する必要がある。
もちろん、クラウドとオンプレミスの両方で運用し、必要に応じてクラウドにバーストすることも可能だ。
後編では、オンプレミスのデータレイク製品と3大クラウドベンダーのデータレイクサービスを紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。
複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。