いまさら聞けない「データレイク」とは? データウェアハウスとの違いはクラウドデータレイクとは何か【前編】

ビジネスにおけるデータ活用が求められる中、クラウドデータレイクへの注目が高まっている。なぜデータレイクをオンプレミスシステムではなくクラウドサービスで運用する必要性があるのか。

2025年02月06日 05時00分 公開
[Stephen PritchardTechTarget]

 増え続けるデータを効率的に管理するための仕組みとして「データレイク」の活用が広がっている。データレイクという大規模なデータリポジトリを活用することで、企業は構造化データと非構造化データを収集し、保存できる。それらのデータをデータウェアハウス(DWH)やデータベース、業務アプリケーションに送ったり、データサイエンティストや分析ツール、人工知能(AI)ツールに渡したりすることで、さらなるデータの活用が可能になる。

 膨大な量のデータの蓄積や、ビジネスの成長に合わせたデータレイクの拡大を見据えると、クラウドサービスにデータレイクを配置することが視野に入る。そうした「クラウドデータレイク」にはどのようなメリットやデメリットがあるのかを知る前に、まずはデータレイクの概要を学ぼう。

そもそもデータレイクとは?

 データレイクは、データを加工せずに保存する保管庫だ。保存したデータは、必要に応じて追加処理をしたり、データベースや業務アプリケーションに送ったりする。データレイクには、以下をはじめビジネスに関するさまざまなデータが集まる。

  • サプライチェーンデータ
  • 顧客データ
  • マーケティングデータ
  • 在庫データ
  • 工場や機械のセンサーデータ

 データレイクには、構造化データ、非構造化データ、半構造化データのいずれも格納可能だ。データを検索する際は、メタデータを使ったタグ付け機能を利用する。格納したデータは、専用アプリケーションで処理するか、データサイエンティストや開発者が加工することになる。従業員や業務アプリケーションが使用できるよう、データを整形して保存するDWHとは対照的だ。

 クラウドサービス群「Amazon Web Services」(AWS)は、データレイクを以下のように定義している。

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。

クラウドデータレイクの主な特徴

 クラウドデータレイクの特徴は、保存容量の拡張性と管理のしやすさだ。主要クラウドベンダーが提供するクラウドデータレイクはオブジェクトストレージで稼働し、事実上容量の制限がない。

 他のクラウドストレージと同様、クラウドデータレイクも容量を増減できる。企業はビジネス要件に応じて容量を調整し、料金を抑えることが可能だ。容量の増減、ハードウェアとソフトウェアの保守、冗長化、セキュリティ対策をクラウドベンダーが担当するため、企業の負担軽減につながる。コンサルティング企業PA Consulting Groupでデータエキスパートを務めるスリバッツァ・ノリ氏は、「企業のデータエンジニアリングチームはビジネスの分析に専念できるようになり、オンプレミスインフラのメンテナンスから解放される」と説明する。

 「信頼性と可用性を備え、最新技術を取り入れたデータレイクは、安定したパフォーマンスと最小限のダウンタイム(停止時間)を実現する」(ノリ氏)

 クラウドベンダーは、アクセス制御と監査機能だけではなく、クラウドリソースへのタグ付けによる効率的な管理方法も提供している。

 これまで企業やベンダーはデータレイクとDWHを別々の仕組みとして扱っていたが、最近は同一システムで運用したり、「データレイクハウス」として統合したりするようになった。「最新のデータ管理において、データレイクとDWHは互いに補完し合っており、クラウドサービスはこれら2つを効果的に統合する」とノリ氏は述べる。


 次回は、クラウドデータレイクの長所と短所、具体的なクラウドデータレイクを解説する。

Computer Weekly発 世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

髫エ�ス�ス�ー鬨セ�ケ�つ€驛「譎擾スク蜴・�。驛「�ァ�ス�、驛「譎冗樟�ス�ス驛「譎「�ス�シ驛「譏懶スサ�」�ス�ス

製品資料 グーグル・クラウド・ジャパン合同会社

生成AIアプリの開発を容易に、オペレーショナルデータベース×RAGのメリット

生成AIを業務に生かすには、回答の正確性やセキュリティなど、多くの課題を解決する必要がある。そこで注目したいのが、オペレーショナルデータベースと、検索拡張生成(RAG)技術を組み合わせるアプローチだ。

製品資料 グーグル・クラウド・ジャパン合同会社

標準のPostgreSQLより4倍以上も高速、高性能&高可用性で注目のデータ基盤とは

リアルタイム性や生成AI対応などデータベースに対する期待が急速に高まっている。そこで従来のPostgreSQLでは対応が難しかったスピードやスケーラビリティの課題を解消したデータ基盤が注目されている。本資料で詳細を解説する。

製品資料 株式会社ジャストシステム

脱Excelで注目のデータベース化、全社展開を成功に導くためのポイントとは?

業務の効率化を進める中で、脱Excelを目指す企業が増えている。そこで注目されているのがデータベース化だ。しかし、その導入に当たっては、押さえておきたいポイントがある。本資料では、その内容を詳しく解説する。

製品資料 株式会社ジャストシステム

DXの第一歩は社内データの一元管理から、「脱Excel」に最適な手法とは?

DXを進める上では、社内のデータを効率的に管理/共有することが不可欠だが、Excelやスプレッドシートには、最新ファイルの特定、担当者の異動に伴うメンテナンスの引継ぎ、検索の難しさなどの課題がある。これらを解決する方法とは?

製品資料 株式会社ジャストシステム

データドリブン経営を成功させるカギ、使われていない社内データをどう生かす?

データドリブン経営を成功させる上では、社内で使われていないビッグデータやダークデータを業務でどのように生かすかがカギとなる。ただしそのためには、データのサイロ化や品質のばらつき、人材不足といった課題を乗り越える必要がある。

アイティメディアからのお知らせ

From Informa TechTarget

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。

繧「繧ッ繧サ繧ケ繝ゥ繝ウ繧ュ繝ウ繧ー

2025/07/27 UPDATE

  1. 縲訓ython縲阪□縺代§繧�↑縺�€€AI譎ゆサ」縺ョ繧ィ繝ウ繧ク繝九い縺ォ豎ゅa繧峨l繧九せ繧ュ繝ォ縺ィ縺ッ��
  2. 縲後た繝輔ヨ繧ヲ繧ァ繧「繝�せ繝医€阪�菴輔�縺溘a�溘€€CrowdStrike莠倶サカ縺九i繝�せ繝域姶逡・繧定ヲ狗峩縺昴≧
  3. C++縺娯€應スソ縺」縺ヲ縺ッ縺�¢縺ェ縺��繝ュ繧ー繝ゥ繝溘Φ繧ー險€隱樞€昴□縺ィ險€繧上l繧九�縺ッ縺ェ縺懶シ�
  4. 窶懆┳Excel窶昴r螳溽樟縺吶k縲 ̄MBOK貅匁侠繧キ繧ケ繝�Β縲郡I Object Browser PM縲�
  5. 繝輔Ξ繝シ繝�繝ッ繝シ繧ッ縲卦OGAF縲阪�菴輔�蠖ケ縺ォ遶九▽�溘€€蟄ヲ鄙偵Γ繝ェ繝�ヨ繧定ァ」隱ャ
  6. URL蜻ス蜷崎ヲ丞援縲後こ繝舌ヶ繧ア繝シ繧ケ縲阪€後く繝」繝。繝ォ繧ア繝シ繧ケ縲阪€後せ繝阪�繧ッ繧ア繝シ繧ケ縲阪€後せ繧ッ繝ェ繝シ繝溘Φ繧ー繧ケ繝阪�繧ッ繧ア繝シ繧ケ縲阪�驕輔>縺ッ��
  7. 縲繰ava縲阪Λ繧、繧サ繝ウ繧ケ譁吶↓謔イ魑エ縲€蜉�騾溘☆繧銀€廾racle髮「繧娯€昴�逅�罰縺ィ遶九■縺ッ縺�縺九k螢�
  8. 蟷エ蜿�1600荳��繧ら漁縺医k縲後ョ繝シ繧ソ繧オ繧、繧ィ繝ウ繝�ぅ繧ケ繝医€阪�窶懊せ繧ュ繝ォ鄙貞セ苓。�5驕ク窶�
  9. 繧ェ繝ッ繧ウ繝ウ蛹悶@縺溘�縺壹�縲後Γ繧ソ繝舌�繧ケ縲阪′窶懊≠縺ョ40荳��雜�∴HMD窶昴〒螟ァ蠕ゥ豢サ縺ョ莠域─
  10. 繧ェ繝ウ繝励Ξ繝溘せ縺九€√け繝ゥ繧ヲ繝峨°窶補€柊I縺ョ諤ァ閭ス繧貞シ輔″蜃コ縺吶せ繝医Ξ繝シ繧ク縺ィ縺ッ��

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...