BigQueryにデータエンジニア向けAI 「Data Engineering Agent」プレビュー開始:分析より時間がかかる「集める、整える」工程をスムーズに
Googleは、データ分析基盤「BigQuery」に新たなAI機能「Data Engineering Agent」を追加した。データパイプラインの設計や変更、品質チェック、トラブルシューティング を支援し、属人化しがちなデータ基盤運用の標準化と効率化を狙う。
Googleは2025年11月4日(米国時間)、同社のデータ分析基盤「BigQuery」において、AI(人工知能)モデル「Gemini」を用いた新機能「Data Engineering Agent」(以下、エージェント)のプレビュー提供を開始した。データパイプラインの設計、保守、移行に必要なコードや変更案を自然言語による指示で自動生成するため、企業のデータ活用における前処理や運用の負荷を軽減できる可能性がある。
AIが要件を読み取り、設計・保守・移行を一気通貫で支援
併せて読みたいお薦め記事
データパイプラインの自動化はどこまで可能か
同エージェントは、BigQueryのパイプライン管理機能「BigQuery Pipelines」から呼び出して利用できる。主な特徴は以下の5つだ。
- 自然言語によるデータパイプラインの生成と変更
- データガバナンス基盤「Dataplex」との連携によるメタデータ参照、品質ルール適用、個人識別情報(PII)列の自動暗号化
- 列定義やパイプラインの自動ドキュメント化
- 生成AIによる運用支援機能「Gemini Cloud Assist」と連動した障害解析と修正提案
- 既存コード/レガシーツールからの移行支援
データ活用を進める際に、時間がかかりがちなのは生データの分析、準備、クリーニングといった一連の前処理だ。Data Engineering Agentを使用すると、例えばオブジェクトストレージサービス「Google Cloud Storage」から生のファイルにアクセスし、自然言語による指示を出すだけで、自動的にデータのクリーニング、重複排除、フォーマット、標準化ができる。
企業ごとのビジネスルールを反映しやすい点も特徴だ。Data Engineering Agentは、自然言語からパイプラインを生成する際に、ユーザー企業が定義した「カスタムインストラクション」を参照できる。これによって「日付の表記は必ずYYYY-MM-DDに統一する」「売上集計は社内標準の利益率計算を使う」といった自社固有のルールやベストプラクティスを、あらかじめパイプライン生成の前提として組み込める。さらに、BigQueryのユーザー定義関数(UDF)をパイプライン内で活用することで、業種特有の指標計算や検証ロジックを再利用可能なパーツとして埋め込み、自動生成されるパイプラインにも一貫したビジネスロジックを適用できる。
データ品質面についても効果を発揮する。従来は複雑なクエリを作成し、どういったデータが問題になるのか調査したり、データ形式を標準化したりする必要があったが、Data Engineering AgentとDataplexが連携することで、Dataplexリポジトリで定義されたルールに基づいて検査条件(アサーション)を自動生成する上、PIIを含む列を自動的に暗号化できる。
データパイプラインに問題が起きた場合の支援機能もある。問題発生時にData Engineering Agentは実行ログを分析し、障害の根本原因を特定し、解決案を提示する。
編集者の一言解説
企業のデータ活用で時間がかかるのは、実は分析よりも「集める、整える」といった前工程だ。Data Engineering Agentは、その作業を自動化して作業時間の圧縮と担当者依存の軽減につなげる狙いがある。一方で、自動生成の結果が常に正しいとは限らない点には注意が必要だ。レビューと権限管理、ログの記録をセットで運用し、機微情報の扱いには注意を払うべきだ。
Copyright © ITmedia, Inc. All Rights Reserved.