データレイクハウス=データレイク+データウェアハウスデータレイクハウスとは

「データレイクハウス」という新たな考え方が登場した。名前から概要は想像が付くが、具体的にどのような特徴があるのだろうか。

2021年08月27日 08時00分 公開
[Antony AdsheadComputer Weekly]

 データレイクハウスとは、データウェアハウスとデータレイクのギャップを埋めるという考え方だ。言い換えると、データレイクの比較的低コストの柔軟性とデータウェアハウスのアクセス性を結び付けることがデータレイクハウスの目的だ。

データレイクとデータウェアハウス

 まずデータレイクとデータウェアハウスの主な機能をまとめ、データレイクハウスという考え方がそのどこに落ち着くかを考えてみよう。

 データレイクはデータ管理の最も上流に位置する。データレイクには企業の全てのデータが流れ込む。XMLやJSONなどを介して非構造化データ、構造化データ、画像ファイル、PDF、データベースなどさまざまな形式のデータがそのままの形式で存在する。データレイクにはメタデータを使った検索機能があり、データサイエンティストがアドホックな分析を実行できる。

会員登録(無料)が必要です

 データウェアハウスはこの対極にある。データウェアハウスでは、データレイクでの作業を終えたデータセットが定期的かつ日常的な分析作業に利用できるようになる。

 データウェアハウスでは、データがパッケージ化された処理済みの形式に変換される。つまり、データは常に調査、評価、ラングリング(訳注:クレンジングや整形などの加工)などを終え、迅速かつ定期的にアクセスされる構造化データになる。

 データウェアハウスのコンピューティングとストレージは、必要なアクセスの種類と処理のタイプに合わせて最適化される。

データレイクからデータレイクハウスへ

 データレイクハウスは、日常的な利用を考慮していない大規模で無定型の塊であるデータレイクと、厳密かつ高度に構造化され、比較的高価なデータウェアハウスの間に位置する。

 基本的には、データレイクハウスはACID(原子性、一環性、独立性、永続性)サポートの導入を考える。つまり複数のユーザーが同時にデータの読み取りと書き込みができるトランザクション処理を視野に入れている。これにはスキーマを適用する方法とデータの整合性を推定する方法によるガバナンスを確保することも必要になる。

 データレイクハウスは非構造化(半構造化)データへの対応の一環でもある。こうしたデータはテキスト、画像、動画、音声などさまざまな形式になり、AIツールによって分析される可能性がある。

 これは、さまざまな種類のワークロードをサポートすることも意味する。データウェアハウスが常にデータベースの使用を意味するとしたら、データレイクはデータサイエンス、AI、SQLなどの形式の分析対象になる可能性がある。

 主なメリットは、Python、R、機械学習といった言語やツールを使ってさまざまなデータに迅速かつ容易にアクセスでき、アプリケーションに統合される点にある。

既に使えるデータレイクハウス

 データレイクハウスのパイオニア的存在がDatabricksだ。Databricksはオープンソースのクラウドデータレイクハウス「Delta Lake」に貢献している。

 Databricksは「Amazon Web Services」(AWS)で利用できる。AWSはデータウェアハウスサービスの「Amazon Redshift」もデータレイクハウスとして位置付けており、構造化データ(リレーショナルデータベース)と非構造化データ(「Amazon S3」、Amazon Redshift)にまたがってクエリを実行する機能を備えている。ここで重要なのは、データウェアハウスに必要な準備をすることなく任意のデータソースにクエリできることだ。

 「Microsoft Azure」にも「Azure Databricks」がある。Azure DatabricksはSQL、Python、R、ScalaをサポートするAPIを備えたDelta Lakeエンジンと「Apache Spark」、最適化されたAzureコンピューティングライブラリおよび機械学習ライブラリを使用している。

 DatabricksとGoogleは「Google Cloud Platform」での利用と、「BigQuery」と「Google Cloud AI Platform」の統合を発表している。

 Snowflakeもデータレイクハウスサプライヤーだ。同社は「データレイクハウス」という用語の発案者だと主張し、データウェアハウスとデータの構造化が進んでいないシナリオでデータと分析のプラットフォームを売り込んでいる。

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

事例 アステリア株式会社

ノーコードでアプリ開発とデータ連携を実現、9社の事例に学ぶ現場DXの推進術

工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。

製品資料 ジオテクノロジーズ株式会社

6つのユースケースから学ぶ、「人流データ」の効果的な活用方法

広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。

製品資料 ジオテクノロジーズ株式会社

基礎から解説:「人流データ」の特徴から活用におけるポイントまで

人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。

事例 アルテリックス・ジャパン合同会社

地図情報によるデータ分析作業を効率化、ゼンリングループ企業はどう実現した?

多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。

製品資料 サイオステクノロジー株式会社

ITインフラの自動化を実現、いま注目のクラウド型マネージドサービスの実力

複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。