いまさら聞けない「データレイク」とは? データウェアハウスとの違いはクラウドデータレイクとは何か【前編】

ビジネスにおけるデータ活用が求められる中、クラウドデータレイクへの注目が高まっている。なぜデータレイクをオンプレミスシステムではなくクラウドサービスで運用する必要性があるのか。

2025年02月06日 05時00分 公開
[Stephen PritchardTechTarget]

 増え続けるデータを効率的に管理するための仕組みとして「データレイク」の活用が広がっている。データレイクという大規模なデータリポジトリを活用することで、企業は構造化データと非構造化データを収集し、保存できる。それらのデータをデータウェアハウス(DWH)やデータベース、業務アプリケーションに送ったり、データサイエンティストや分析ツール、人工知能(AI)ツールに渡したりすることで、さらなるデータの活用が可能になる。

 膨大な量のデータの蓄積や、ビジネスの成長に合わせたデータレイクの拡大を見据えると、クラウドサービスにデータレイクを配置することが視野に入る。そうした「クラウドデータレイク」にはどのようなメリットやデメリットがあるのかを知る前に、まずはデータレイクの概要を学ぼう。

そもそもデータレイクとは?

 データレイクは、データを加工せずに保存する保管庫だ。保存したデータは、必要に応じて追加処理をしたり、データベースや業務アプリケーションに送ったりする。データレイクには、以下をはじめビジネスに関するさまざまなデータが集まる。

  • サプライチェーンデータ
  • 顧客データ
  • マーケティングデータ
  • 在庫データ
  • 工場や機械のセンサーデータ

 データレイクには、構造化データ、非構造化データ、半構造化データのいずれも格納可能だ。データを検索する際は、メタデータを使ったタグ付け機能を利用する。格納したデータは、専用アプリケーションで処理するか、データサイエンティストや開発者が加工することになる。従業員や業務アプリケーションが使用できるよう、データを整形して保存するDWHとは対照的だ。

 クラウドサービス群「Amazon Web Services」(AWS)は、データレイクを以下のように定義している。

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。

クラウドデータレイクの主な特徴

 クラウドデータレイクの特徴は、保存容量の拡張性と管理のしやすさだ。主要クラウドベンダーが提供するクラウドデータレイクはオブジェクトストレージで稼働し、事実上容量の制限がない。

 他のクラウドストレージと同様、クラウドデータレイクも容量を増減できる。企業はビジネス要件に応じて容量を調整し、料金を抑えることが可能だ。容量の増減、ハードウェアとソフトウェアの保守、冗長化、セキュリティ対策をクラウドベンダーが担当するため、企業の負担軽減につながる。コンサルティング企業PA Consulting Groupでデータエキスパートを務めるスリバッツァ・ノリ氏は、「企業のデータエンジニアリングチームはビジネスの分析に専念できるようになり、オンプレミスインフラのメンテナンスから解放される」と説明する。

 「信頼性と可用性を備え、最新技術を取り入れたデータレイクは、安定したパフォーマンスと最小限のダウンタイム(停止時間)を実現する」(ノリ氏)

 クラウドベンダーは、アクセス制御と監査機能だけではなく、クラウドリソースへのタグ付けによる効率的な管理方法も提供している。

 これまで企業やベンダーはデータレイクとDWHを別々の仕組みとして扱っていたが、最近は同一システムで運用したり、「データレイクハウス」として統合したりするようになった。「最新のデータ管理において、データレイクとDWHは互いに補完し合っており、クラウドサービスはこれら2つを効果的に統合する」とノリ氏は述べる。


 次回は、クラウドデータレイクの長所と短所、具体的なクラウドデータレイクを解説する。

Computer Weekly発 世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

譁ー逹€繝帙Ρ繧、繝医�繝シ繝代�

プレミアムコンテンツ アイティメディア広告企画

「スクラム」と「カンバン」の違いとは? アジャイル型開発手法を徹底比較

「スクラム」と「カンバン」は、どちらも「アジャイル」型開発を実践するための開発手法だ。それぞれの考え方や進め方の違い、適する用途を紹介しつつ、両者の“いいとこ取り”をする方法を探る。

プレミアムコンテンツ アイティメディア広告企画

「SRE」と「DevOps」の違いは? 業務分担と連携のヒント

迅速な開発とセキュリティ確保の両立は、アプリケーションの運用管理で重要だ。そのための手法である「SRE」「DevOps」はそれぞれどう異なり、どの場面で連携すべきなのか。

製品資料 Datadog Japan合同会社

自社のDevSecOpsはどこまで進んでいる? 進捗を測る指針“成熟度モデル”とは

DevOpsのワークフローにセキュリティチームとセキュリティ対策を統合するDevSecOpsは、現代の多様な業種の組織において重要な存在になりつつある。DevSecOpsの能力を最大化するためには、現状を正しく評価することが必要だ。

製品資料 ニュータニックス・ジャパン合同会社

クラウドやエッジをまたぐ環境でのKubernetes運用、どうすれば簡素化できる?

Kubernetesの運用に当たっては従来、クラウド型のマネージドサービスを利用する企業が多かったが、一貫性の確保や、ガバナンスの欠如など、課題も多かった。これらを解決するには、どのようなアプローチが有効だろうか。

製品資料 株式会社ネオジャパン

製造業のデータ活用を促進、ノーコード開発ツールを用いた“見える化”の進め方

基幹システムに蓄積された情報を効率的かつ効果的に活用するには、データを見える化することが不可欠だ。見える化の必要性を確認しながら、ノーコード開発ツールを使い、データの有効活用を実現する方法を紹介する。

アイティメディアからのお知らせ

From Informa TechTarget

なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか

なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

繧「繧ッ繧サ繧ケ繝ゥ繝ウ繧ュ繝ウ繧ー

2025/10/21 UPDATE

  1. 繝励Ο繧ー繝ゥ繝溘Φ繧ー蟄ヲ鄙定€��縲�97��€阪′窶懷ソ�釜繧後◆窶昴€€譛€螟ァ縺ョ髫懷」√���
  2. 60蟷エ蜑阪�繧ウ繝シ繝峨′莉翫b蜍輔¥窶補€戊恭蝗ス縺ョ驫€陦後す繧ケ繝�Β繧堤ク帙k窶懈橿陦楢イ�蛯オ窶�
  3. 謳堺ソ昴ず繝」繝代Φ縺ョDX繧呈髪縺医k繝�せ繝郁�蜍募喧繝��繝ォ縲√◎縺ョ蜉ケ譫懊→縺ッ
  4. 繝槭う繧ッ繝ュ繧オ繝シ繝薙せ縺ョ谺。縺ェ繧九せ繝�ャ繝暦シ溘€€縲窟PI險ュ險医ヵ繧。繝シ繧ケ繝医€阪〒螟峨o繧矩幕逋コ迴セ蝣エ
  5. 縲後Ξ繧ャ繧キ繝シ繧キ繧ケ繝�Β蛻キ譁ー縲阪rAI縺ォ荳ク謚輔£縺励※縺ッ縺�¢縺ェ縺�€€8縺、縺ョ逕ィ萓九→4縺、縺ョ豕ィ諢冗せ
  6. 縲茎udo縲阪�窶憺�郁陸窶昴→隱ュ縺セ縺ェ縺�@縲慧aemon縲阪�窶懈が鬲披€昴§繧�↑縺�€€豁」隗」縺ッ��
  7. AI縺ッ縲後Ξ繧ャ繧キ繝シ繧キ繧ケ繝�Β縲阪r謨代∴繧九°�溘€€繝「繝€繝翫う繧シ繝シ繧キ繝ァ繝ウ繧帝仆繧€7縺、縺ョ隱イ鬘�
  8. 莉翫→譏斐�縲後�繝ュ繧ー繝ゥ繝溘Φ繧ー縲阪�菴輔′蜈ィ辟カ驕輔≧縺ョ縺具シ溘€€譁ー譎ゆサ」繧偵b縺溘i縺吝括逧�、牙喧
  9. 繧ウ繝シ繝峨�繧ゅ≧譖ク縺九↑縺�€補€墓€・騾溘↓豬ク騾上☆繧九€後ヰ繧、繝悶さ繝シ繝�ぅ繝ウ繧ー縲阪�迴セ螳�
  10. 縲繰aeger縲阪�螳溘�窶懊ず繝」繧ャ繝シ窶昴〒縺ッ縺ェ縺九▲縺溘€€豁」縺励>隱ュ縺ソ譁ケ縺ッ縺薙l縺�

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...