AIが「質の悪いデータ」を拡散? 限界を迎えたETLと次世代データ基盤の最適解:情シスが押さえるべき最新アプローチ
生成AIやAIエージェントの普及を背景に、企業ではビッグデータ統合の重要性が高まっている。本稿は、ビッグデータ統合を成功させる最新の5つのベストプラクティスをデータ統合の専門家が紹介する。
生成AIやAIエージェントの活用が広がる中、多くの企業がデータ基盤の整備を進めている。しかし、AIの性能はモデルだけで決まるものではない。分析やAIが利用するデータが古かったり、部門ごとに分断されていたりすると、AIは誤った判断や不正確な分析結果を生み出す可能性がある。
従来のデータウェアハウスでは、「ETL」(Extract<抽出>、Transform<変換>、Load<格納>)によるバッチ処理が一般的だった。しかし、IoTデータやログデータ、SNSデータ、画像データなど大量かつ多様なデータを扱う現在、この方式だけでは十分に対応できない。
本稿では、AI時代に求められるビッグデータ統合の考え方と、情報システム部門(情シス)が検討すべきポイントを整理する。
ビッグデータ統合にこれから必要なアプローチ5選
意思決定に信頼できる洞察をもたらすには、最新かつ完全なデータが必要だ。しかし、「従来のデータウェアハウスで使われてきたETLでは、ビッグデータシステムでは通用しない場合がある」――。セマンティックレイヤーのプラットフォームを提供するAtScaleの共同創業者兼CTO、デビッド・マリアーニ氏はこう指摘する。
バッチ処理によるETLでは、データ変換がボトルネックとなり、大量のデータを処理し切れない。頻繁なデータ更新や動的な分析要件に追い付くのが困難となる。例えば、オンライン小売業者が1日数百件の取引を夜間のETLジョブで処理する場合、処理時間が翌朝まで食い込み、最新の売上データを確認できないといった事態が起こり得る。また、ETLはロード前にデータを定義済みのスキーマに変換する必要があるため、非構造化データや半構造化データには向かない。
これに対し、ロードと変換の順序を逆にした「ELT」(Extract<抽出>、Load<格納>、Transform<変換>)という手法がある。データをまずネイティブ形式のままデータレイクやデータレイクハウスに書き出し、特定のユースケースに応じて必要時に変換・統合する。ELTは拡張性に優れ、大量のデータや高速な更新を効率的に処理できる。データが変化しても、新たなアプリケーションやAIモデルの更新に柔軟に対応できるのが利点だ。
また、リアルタイムのデータ統合・処理技術を導入している企業は増加傾向だ。不正検知、リアルタイムのパーソナライゼーション、運用のモニタリングといった、即時性が求められる用途に対応するためだ。代表的な技術にはストリーム処理、イベント駆動型アーキテクチャ、変更データキャプチャー(CDC)がある。これらにより、データが発生・更新されるたびに捕捉し、データプラットフォームへ継続的に書き出すことが可能になる。
AIエージェントが統合を複雑にする
「AIエージェント」の台頭は、データ統合をさらに複雑にしている。基本的な統合は、ソースシステムから分析用リポジトリへ流れる一方向のパイプラインだ。高度なアプリケーションでは、分析結果を業務システムに直接戻す「双方向の統合」をサポートする。今後AIエージェントの導入が進めば、より大規模な双方向統合が必要になる。
ITサービス企業SHI Internationalのデビッド・デュシェーン氏(データ・AIプロフェッショナルサービス部門シニアマネジャー)は次のように語る。「AIエージェントはデータレイク内のデータにアクセスするだけでなく、新たなアウトプットを生成し、領域をまたいだ潜在的な関係性を可視化する。設定次第では、強化された洞察を元のソースシステムへ自律的に書き戻すことも可能だ」。同氏は、この機能には広範かつ継続的な双方向統合の能力が求められるとも指摘する。
データガバナンスへの圧力も高まっている。ITコンサルティング企業Bridgenextのダン・フェデロフ氏(データソリューション部門責任者)は、AIエージェントが「質の悪いデータ」を拒否せず、組織内にひそかに拡散させてしまうリスクを警告する。AI時代のデータ統合を成功させるには、強力なデータ品質管理や包括的なデータリネージ(履歴)の記録といった、実効性のあるガバナンスがこれまで以上に重要になる。
さらに、権限管理とアクセス制御も動的に実行する必要がある。データセキュリティプラットフォームを提供するImmutaの共同創業者兼CTO、スティーブ・トウ氏は、AIエージェントが機械的な速度で複数のシステムを横断し、権限の異なる複数のユーザーに代わって動作すると指摘する。そこでトウ氏は、AIエージェントに固有のアイデンティティーを割り当て、ユーザーに応じた権限を動的に付与することを勧める。統合レイヤーで一時的なロールを割り当てることで、エージェントに永続的なアクセス権を持たせずにクエリを実行させることが可能になるからだ。
ビッグデータ統合のベストプラクティス
ビッグデータ統合を円滑に進め、ビジネスニーズを満たすに当たって実施したいベストプラクティスを以下に紹介する。
1.包括的なデータ統合戦略を策定する
ITサービスプロバイダーInfoNovus Technologiesの創業者兼CEO、リック・スクリレッツ氏は、統合の取り組みを他のデータ管理機能と調和させるべきだと説く。具体的には、複数システムからのデータ収集、処理・保存・セキュリティ・準備、災害復旧のためのバックアップといった機能だ。これらがどう組み合わさるかを明記した統合戦略がなければ、各機能がバラバラに扱われ、効果が薄れてしまう。
2.データをプロダクトとして扱う
データは、アプリケーションやシステムの「副産物」と見なされることがある。Oracleのジェフリー・ポロック氏(データレプリケーションストリーミング製品担当バイスプレジデント)は、データをそれ自体で独立したプロダクトとして扱う文化に転換することが、データの統合プロセスの有効性を高めると話す。例えば、「データに対して明確なオーナーシップを持つこと」「データの目的を定義し、品質や信頼性に責任を持つ」という製品管理の原則をデータ資産に適用するといった具合だ。
動画配信大手のNetflixはこの概念を取り入れている。同社のデータサイエンスエンジニアリング部門シニアマネジャー、トマシュ・マグダンスキー氏は2025年10月のブログで「データ資産を従来の製品と同じ厳格さと戦略的焦点を持って管理する」と述べた。データを組織内の「一級の存在」へと引き上げ、信頼性を確保して戦略的なビジネス目標に合致させることが狙いだ。
3.重要なメタデータを管理する
データ統合を円滑に進めるには、データの意味や構造、作成元などを示す「メタデータ」の管理が欠かせない。メタデータが整備されていなければ、同じデータでも部門ごとに名称や形式が異なり、統合や分析が難しくなるためだ。
メタデータの管理では、主に次のような仕組みが利用される。
- 論理データモデル
- ビジネス上および技術上の観点からデータの構造や関係性を整理した設計情報。データ統合の計画を立てたり、データ構造の違い、命名規則の不一致、品質のばらつきといった問題を解決したりする際に役立つ。
- データカタログ
- データ資産の一覧(目録)を管理する仕組み。データサイエンティストやビジネスユーザーが必要なデータを検索し、その意味や利用目的、関連するデータセットを理解するために利用される。新たな分析やAI活用に必要なデータを見つけやすくする役割も担う。
4.ライフサイクル管理に統合を組み込む
データライフサイクル管理(DLM)は、作成からアーカイブ、削除に至るまでの管理手順を定めるものだ。データ統合は、このDLMの核となるべきだ。特にビッグデータ環境では規模と複雑さが大きいため、体系的なフレームワークとガバナンス構造に基づいたアプローチが必要だ。
5.組織横断的なアプローチを取る
ビッグデータ活用によるビジネス価値を最大化するには、部門ごとの孤立した実装ではなく、組織全体で統合に取り組む必要がある。会計事務所のErnst & Young(EY)Americasのファイサル・アラム氏(テクノロジーコンサルティングリーダー)は、統合の取り組みがサイロ化すると、部門を越えたデータアクセスや分析が制限され、戦略的な意思決定が妨げられると強調する。
Copyright © ITmedia, Inc. All Rights Reserved.