データレイクを構築するメリットは何か。データレイクに適したストレージとは何か。クラウド化すべきかオンプレミスで運用すべきか。基礎から解説する。
DX(デジタルトランスフォーメーション)にとって大量データの処理は前提条件だ。その鍵となるのがデータレイクという概念だ。組織がデータから可能な限り価値を引き出そうと試みる際、データレイクがそのコアとなる。データレイクはデータ管理と分析の分野に属し、ストレージに依存する。クラウドへの移行の機が熟したアクティビティーだが、オンプレミスのままでも可能だ。
本稿では、データレイクに必要なストレージ(多くの場合オブジェクトストレージ)と、オンプレミスとクラウドそれぞれの長所と短所を見ていく。
データレイクは、企業のデータが最初に流れ込む場所であると考えて構わない。集められた全データのリポジトリであり、大体のデータは未加工のまま存在する。
データの検索を容易にするため、メタデータでタグ付けする場合もある。だがデータレイクのデータは、データサイエンティストやデータレイクの下流でタッチポイントを開発するスペシャリストがアクセスすることを目的とする。
データレイクは、実際の湖(レイク)のようにあらゆるデータソースからそこにデータが流れ込む。そのデータの多くは多様かつ未処理のため、その下流工程が重要になる。
データレイクから下流に流れるデータが行きつく先がデータウェアハウスだ。データはデータウェアハウスでさらに処理され、パッケージ化され、利用の準備が整っている状態だと想定される。
データレイクには複数のデータストアが含まれている。大半の従業員にとっては簡単にアクセスや読み取りができない形式(非構造化、半構造化、構造化)になっている。これに対してデータウェアハウスは、アプリケーションや従業員がアクセスできるデータベース内に構造化データとして構成される。データマートやデータハブでは、部門ごとにさらに利用しやすいデータに加工される可能性がある。
つまりデータレイクは大量のデータをそのデータ本来の形式で保持する。データウェアハウスやデータマートへのクエリとは異なり、データレイクへの問い合わせにはスキーマ・オン・リード(Schema on Read)のアプローチが必要だ。
データレイク内のデータのソースには、組織あるいはその各部門の全データが含まれる。リレーショナルデータベースの構造化データ、CSVファイルやログファイル、XML形式やJSON形式などの半構造化データ、メール、ドキュメントやPDFのような非構造化データ、画像、音声、動画のようなバイナリデータが含まれる可能性がある。
ストレージプロトコルに関しては、ファイル、ブロック、オブジェクトの各ストレージのデータを収容する必要があることになる。だが、データレイク自体のプロトコルとして一般的に選択されるのはオブジェクトストレージだ。覚えておきたいのは、ここでアクセスされるのはデータ自体ではなく、そのデータを説明するメタデータヘッダだ。メタデータヘッダは、データベースから写真まであらゆるものに添付できる。多くの場合、データへの詳細なクエリはデータレイクではなく他の場所で行われる。
オブジェクトストレージは、大量のデータを非構造化データとして格納するのに非常に適している。ブロックストレージのデータベースのようにクエリを実行することはできないが、複数の種類のオブジェクトを大きなフラット構造に格納でき、そこに何があるかを調べることが可能だ。
オブジェクトストレージは通常、高速性を目的とした設計にはなっていない。そのためオブジェクトストレージは、データウェアハウスのリレーショナルデータベースよりもクエリの構築や処理が複雑なデータレイクのユースケースに適している。データレイクレベルでのクエリ処理の多くでは、より容易にクエリできるデータストアを下流のデータウェアハウス用に用意することになる。
オンプレミスとクラウドの比較で行われる全ての議論がデータレイクの運用にも当てはまる。
オンプレミスのデータレイクは、設置スペースと電力、設計、ハードウェアとソフトウェアの調達、管理、それを運用するスキル、それら全ての領域に対応するコストを考慮しなければならない。
データレイクをクラウドに外部委託することは、設備投資(CAPEX)費用をクラウドプロバイダーへの支払いという運用支出(OPEX)費用にオフロードするというメリットがある。ただし、データの増加やクラウドとオンプレミス間のデータ移動は課金対象となることもあるため、予期しないコストが発生する可能性がある。
ストレージやデータレイクのアーキテクチャだけでなく、コンプライアンスや接続性などについても考慮する必要がある。
もちろん、クラウドとオンプレミスの両方で運用し、必要に応じてクラウドにバーストすることも可能だ。
後編では、オンプレミスのデータレイク製品と3大クラウドベンダーのデータレイクサービスを紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.
データ活用におけるさまざまな課題を解決するBIツール。近年は、その枠を超え、さらなるデータ活用を促進するデータ分析プラットフォームへの注目度が高まっている。3社の事例を基に、同製品の魅力と実力に迫る。
データの可視化/分析をサポートするツールとして定評のあるBIツールだが、導入したものの活用できていない企業は意外と多い。その理由を確認するとともに、解決策として注目したい「チャットBI」の機能やメリットを詳しく解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
多くの企業で「情報の分断」や「手作業によるデータ処理への依存」が課題となり、迅速な経営判断を阻害している。本資料では、クラウドとBIツールを活用した分析基盤を構築し、これらの課題を解決した2社の事例を紹介する。
データドリブン経営の必要性が叫ばれる今も、グローバルに拠点を展開する企業は、決算データの収集に時間がかかり、整合性をとるのも難しいなど、多くの課題を抱えている。この状況を改善するには、どのようなアプローチが有効だろうか。
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...