「データレイクハウス」という新たな考え方が登場した。名前から概要は想像が付くが、具体的にどのような特徴があるのだろうか。
データレイクハウスとは、データウェアハウスとデータレイクのギャップを埋めるという考え方だ。言い換えると、データレイクの比較的低コストの柔軟性とデータウェアハウスのアクセス性を結び付けることがデータレイクハウスの目的だ。
まずデータレイクとデータウェアハウスの主な機能をまとめ、データレイクハウスという考え方がそのどこに落ち着くかを考えてみよう。
データレイクはデータ管理の最も上流に位置する。データレイクには企業の全てのデータが流れ込む。XMLやJSONなどを介して非構造化データ、構造化データ、画像ファイル、PDF、データベースなどさまざまな形式のデータがそのままの形式で存在する。データレイクにはメタデータを使った検索機能があり、データサイエンティストがアドホックな分析を実行できる。
データウェアハウスはこの対極にある。データウェアハウスでは、データレイクでの作業を終えたデータセットが定期的かつ日常的な分析作業に利用できるようになる。
データウェアハウスでは、データがパッケージ化された処理済みの形式に変換される。つまり、データは常に調査、評価、ラングリング(訳注:クレンジングや整形などの加工)などを終え、迅速かつ定期的にアクセスされる構造化データになる。
データウェアハウスのコンピューティングとストレージは、必要なアクセスの種類と処理のタイプに合わせて最適化される。
データレイクハウスは、日常的な利用を考慮していない大規模で無定型の塊であるデータレイクと、厳密かつ高度に構造化され、比較的高価なデータウェアハウスの間に位置する。
基本的には、データレイクハウスはACID(原子性、一環性、独立性、永続性)サポートの導入を考える。つまり複数のユーザーが同時にデータの読み取りと書き込みができるトランザクション処理を視野に入れている。これにはスキーマを適用する方法とデータの整合性を推定する方法によるガバナンスを確保することも必要になる。
データレイクハウスは非構造化(半構造化)データへの対応の一環でもある。こうしたデータはテキスト、画像、動画、音声などさまざまな形式になり、AIツールによって分析される可能性がある。
これは、さまざまな種類のワークロードをサポートすることも意味する。データウェアハウスが常にデータベースの使用を意味するとしたら、データレイクはデータサイエンス、AI、SQLなどの形式の分析対象になる可能性がある。
主なメリットは、Python、R、機械学習といった言語やツールを使ってさまざまなデータに迅速かつ容易にアクセスでき、アプリケーションに統合される点にある。
データレイクハウスのパイオニア的存在がDatabricksだ。Databricksはオープンソースのクラウドデータレイクハウス「Delta Lake」に貢献している。
Databricksは「Amazon Web Services」(AWS)で利用できる。AWSはデータウェアハウスサービスの「Amazon Redshift」もデータレイクハウスとして位置付けており、構造化データ(リレーショナルデータベース)と非構造化データ(「Amazon S3」、Amazon Redshift)にまたがってクエリを実行する機能を備えている。ここで重要なのは、データウェアハウスに必要な準備をすることなく任意のデータソースにクエリできることだ。
「Microsoft Azure」にも「Azure Databricks」がある。Azure DatabricksはSQL、Python、R、ScalaをサポートするAPIを備えたDelta Lakeエンジンと「Apache Spark」、最適化されたAzureコンピューティングライブラリおよび機械学習ライブラリを使用している。
DatabricksとGoogleは「Google Cloud Platform」での利用と、「BigQuery」と「Google Cloud AI Platform」の統合を発表している。
Snowflakeもデータレイクハウスサプライヤーだ。同社は「データレイクハウス」という用語の発案者だと主張し、データウェアハウスとデータの構造化が進んでいないシナリオでデータと分析のプラットフォームを売り込んでいる。
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
YouTube広告の実店舗売り上げへの貢献を計測 インテージが「Sales Impact Scope」を提供開始
インテージがYouTube出稿による小売店販売への広告効果を計測するサービスを提供開始した...
2025年のデジタル広告業界の展望 日本のマーケターの優先メディアと課題は?
IASは、2025年におけるデジタル広告業界の主要なトレンドについて掘り下げたレポート「Th...
「ECプラットフォーム」売れ筋TOP10(2025年1月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。