GoogleやAWSなど大手ITベンダーがこぞって採用 「Apache Iceberg」とは何者か:データレイクとDWHのいいとこ取り
大手IT企業が、自社サービスで「Apache Iceberg」形式のデータテーブルを扱えるようにする動きが進んでいる。データレイクとDWH双方の特徴を持つ「データレイクハウス」の土台になる、Apache Icebergの仕組みとは。
「Apache Iceberg」は、大規模なテーブル形式のオープンソースデータフォーマットだ。その役割は、いまや現代の「データレイクハウス」を支える中核技術へと進化した。データレイクハウスは、大量の未加工データを蓄積する「データレイク」と、特定の目的のために整理、加工されたデータを格納する「データウェアハウス」(DWH)を融合させた技術を指す。
Google、Amazon Web Services(AWS)、Snowflake、Apple、Netflix、Databricks、Qlik Technologies、Clouderaといった主要IT企業がこぞってApache Icebergを採用している事実は、Apache Icebergが単なる一時的な流行ではないことを物語っている。この動きは、オンプレミスシステムとクラウドサービスが共存する「ハイブリッドクラウド」において、オープンで特定のベンダーに縛られないアーキテクチャへの移行が進んでいることを示唆している。Apache Icebergの台頭を支えている、その特徴とは。
IT業界で急速に浸透している理由
Apache Icebergは、2017年にNetflixが開発し、2018年にオープンソース化された。主な採用例を以下に示す。
- Google
- データレイクハウスサービス「BigLake」およびデータベースサービス「BigQuery」でApache Iceberg形式のテーブルを扱えるようにしており、オープンフォーマットの活用を推進している。
- AWS
- 「Amazon Athena」「Amazon Redshift」「AWS Glue」といった主要な分析関連サービスでApache Iceberg形式のテーブルを利用可能にしている。
- Snowflake
- 2023年に、Apache Iceberg形式のデータを同社のクラウドDWHで使える機能「Unified Iceberg Tables」を発表した。2025年にはAI(人工知能)技術を活用した分析機能やデータレプリケーション機能などを追加した。
- Apple
- 数百の社内データチームでApache Icebergを採用した。その知見を基にした「Copy-on-Write」「Merge-on-Read」といった機能がApache Icebergに実装された。
- Databricks
- Apache Icebergの開発者が設立したTabularを買収した後、データ管理ツール「Unity Catalog」とデータベースサービス「Lakebase」で、Apache Iceberg形式のテーブルを利用可能にしている。
- Cloudera
- 早期からApache Icebergに着目し、自社が提供するデータ管理・分析ツールでApache Iceberg形式のテーブルを利用可能にしている。
- Qlik Technologies
- クラウド型データ変換・集約ツール「Qlik Talend Cloud」で、Apache Iceberg形式のテーブルを使ったデータパイプラインの構築を支援する機能「Open Lakehouse」を提供開始した。
- Dremio
- 自社のデータレイクハウスの中核にApache Icebergを据えており、その中でApache Iceberg形式のテーブルに対する操作機能を提供している。
- Oracle
- データベース「Oracle Autonomous Database」とクエリ(問い合わせ)高速化エンジン「MySQL Heatwave Lakehouse」で、Apache Iceberg形式のテーブルを扱えるようにした。
2025年6月に策定されたApache Icebergバージョン3の仕様では、異なるデータ関連製品間での連携性、特定ベンダーに依存しない中立性が強化された。
いま、Apache Icebergが重要視される理由
Apache Icebergが支持を集めている背景には、幾つかの要因がある。
1.データレイクハウスの真価を発揮する機能群
Apache Icebergは、これまでのデータレイクでは搭載することが難しかった以下の機能をもたらす。
- ACID特性を保証したトランザクションの実行
- 「ACID」は原子性(Atomicity)、一貫性(Consistency)、独立性(Isolation)、永続性(Durability)の略。
- データの整合性を保証したトランザクション(一連の処理)を実行できる。
- これによって、複数エンドユーザーによるデータ読み書きの同時実行を可能にする。
- スキーマやパーティションの動的な変更
- テーブルのスキーマ(列定義)、パーティション(データのグルーピング)を、テーブルの運用開始後でも変更できる。
- タイムトラベル
- 過去の任意の時点にテーブルの状態を戻したり、その時点のデータを参照したりできる。
この他、Apache Icebergはメタデータを実データと切り離して管理する構造になっているため、クラウドサービスのオブジェクトストレージでも効率的に処理できるという特徴もある。これは、テーブルを構成するファイル一覧をメタデータとして管理することで、オブジェクトストレージが苦手とするファイル一覧の取得処理を回避できるためだ。
2.ベンダーに依存しないオープンなデータフォーマット
特定のベンダーが管理するプロプライエタリ(ソースコード非公開)なデータフォーマットとは異なり、Apache Icebergはオープンなデータ仕様だ。「Apache Spark」「Apache Flink」「Trino」「Presto」「Apache Hive」「Amazon Athena」など、さまざまなデータ処理エンジンでApache Iceberg形式のテーブルを利用可能だ。このオープンな設計によって、企業はベンダーロックインを回避し、自由に技術や製品を選択できるようになる。
3.コミュニティー主導の活発な技術革新
Netflix、Apple、AWS、Snowflake、Dremio、Tabularなどが主要なコントリビューターとして参加する活発なオープンソースコミュニティーが、Apache Icebergの機能開発を後押ししている。
4.AI技術、データ分析技術との親和性
画像やテキストを自動生成するAI技術「生成AI」や、大規模データの分析システムが急速に発展したことで、Apache Icebergのようなオープンなデータ形式の採用が広がっている。これによって企業は、データ形式を一元化でき、データを変換、移動する手間なく、ペタバイト規模のデータを用いたAIモデルの学習を効率的に進められるようになる。タイムトラベル機能によってデータのロールバックや再現性を確保できるため、監査においても重要な役割を果たす。
5.多様なインフラ形態への適応力
Apache Icebergはデータを保管するストレージ層と、データを処理するコンピュート層を分離するという設計思想を持つ。これによって、機密性の高いデータはオンプレミスサーバに置き、データ処理は複数のクラウドサービスに分散させるといったハイブリッドなレイクハウスアーキテクチャが構築可能になる。Apache Icebergは、こうした複雑な構成においてもメタデータ管理とデータ一貫性の課題を解決するのに役立つ。
Apache Icebergは統一性、オープン性、自由度を兼ね備えたデータアーキテクチャを実現するための重要な技術だ。豊富な機能群、特定のベンダーに依存しない設計、活発なオープンソースのエコシステム、AI技術との親和性といった点を、主要IT企業が評価して採用している。データレイクの自由度とDWHの信頼性を両立させた、次世代のデータレイクハウスの実現を支える技術だと言える。
TechTarget.AIとは
TechTarget.AIは、TechTargetジャパンの記事の一部で生成AIを補助的に活用し、米国Informa TechTargetの記事を翻訳・編集して国内向けにお届けします。編集部による内容の確認を徹底しています。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。