大手IT企業が、自社サービスで「Apache Iceberg」形式のデータテーブルを扱えるようにする動きが進んでいる。データレイクとDWH双方の特徴を持つ「データレイクハウス」の土台になる、Apache Icebergの仕組みとは。
「Apache Iceberg」は、大規模なテーブル形式のオープンソースデータフォーマットだ。その役割は、いまや現代の「データレイクハウス」を支える中核技術へと進化した。データレイクハウスは、大量の未加工データを蓄積する「データレイク」と、特定の目的のために整理、加工されたデータを格納する「データウェアハウス」(DWH)を融合させた技術を指す。
Google、Amazon Web Services(AWS)、Snowflake、Apple、Netflix、Databricks、Qlik Technologies、Clouderaといった主要IT企業がこぞってApache Icebergを採用している事実は、Apache Icebergが単なる一時的な流行ではないことを物語っている。この動きは、オンプレミスシステムとクラウドサービスが共存する「ハイブリッドクラウド」において、オープンで特定のベンダーに縛られないアーキテクチャへの移行が進んでいることを示唆している。Apache Icebergの台頭を支えている、その特徴とは。
Apache Icebergは、2017年にNetflixが開発し、2018年にオープンソース化された。主な採用例を以下に示す。
2025年6月に策定されたApache Icebergバージョン3の仕様では、異なるデータ関連製品間での連携性、特定ベンダーに依存しない中立性が強化された。
Apache Icebergが支持を集めている背景には、幾つかの要因がある。
Apache Icebergは、これまでのデータレイクでは搭載することが難しかった以下の機能をもたらす。
この他、Apache Icebergはメタデータを実データと切り離して管理する構造になっているため、クラウドサービスのオブジェクトストレージでも効率的に処理できるという特徴もある。これは、テーブルを構成するファイル一覧をメタデータとして管理することで、オブジェクトストレージが苦手とするファイル一覧の取得処理を回避できるためだ。
特定のベンダーが管理するプロプライエタリ(ソースコード非公開)なデータフォーマットとは異なり、Apache Icebergはオープンなデータ仕様だ。「Apache Spark」「Apache Flink」「Trino」「Presto」「Apache Hive」「Amazon Athena」など、さまざまなデータ処理エンジンでApache Iceberg形式のテーブルを利用可能だ。このオープンな設計によって、企業はベンダーロックインを回避し、自由に技術や製品を選択できるようになる。
Netflix、Apple、AWS、Snowflake、Dremio、Tabularなどが主要なコントリビューターとして参加する活発なオープンソースコミュニティーが、Apache Icebergの機能開発を後押ししている。
画像やテキストを自動生成するAI技術「生成AI」や、大規模データの分析システムが急速に発展したことで、Apache Icebergのようなオープンなデータ形式の採用が広がっている。これによって企業は、データ形式を一元化でき、データを変換、移動する手間なく、ペタバイト規模のデータを用いたAIモデルの学習を効率的に進められるようになる。タイムトラベル機能によってデータのロールバックや再現性を確保できるため、監査においても重要な役割を果たす。
Apache Icebergはデータを保管するストレージ層と、データを処理するコンピュート層を分離するという設計思想を持つ。これによって、機密性の高いデータはオンプレミスサーバに置き、データ処理は複数のクラウドサービスに分散させるといったハイブリッドなレイクハウスアーキテクチャが構築可能になる。Apache Icebergは、こうした複雑な構成においてもメタデータ管理とデータ一貫性の課題を解決するのに役立つ。
Apache Icebergは統一性、オープン性、自由度を兼ね備えたデータアーキテクチャを実現するための重要な技術だ。豊富な機能群、特定のベンダーに依存しない設計、活発なオープンソースのエコシステム、AI技術との親和性といった点を、主要IT企業が評価して採用している。データレイクの自由度とDWHの信頼性を両立させた、次世代のデータレイクハウスの実現を支える技術だと言える。
TechTarget.AIは、TechTargetジャパンの記事の一部で生成AIを補助的に活用し、米国Informa TechTargetの記事を翻訳・編集して国内向けにお届けします。編集部による内容の確認を徹底しています。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。
なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...