Googleは、データ分析基盤「BigQuery」に新たなAI機能「Data Engineering Agent」を追加した。データパイプラインの設計や変更、品質チェック、トラブルシューティング を支援し、属人化しがちなデータ基盤運用の標準化と効率化を狙う。
Googleは2025年11月4日(米国時間)、同社のデータ分析基盤「BigQuery」において、AI(人工知能)モデル「Gemini」を用いた新機能「Data Engineering Agent」(以下、エージェント)のプレビュー提供を開始した。データパイプラインの設計、保守、移行に必要なコードや変更案を自然言語による指示で自動生成するため、企業のデータ活用における前処理や運用の負荷を軽減できる可能性がある。
同エージェントは、BigQueryのパイプライン管理機能「BigQuery Pipelines」から呼び出して利用できる。主な特徴は以下の5つだ。
データ活用を進める際に、時間がかかりがちなのは生データの分析、準備、クリーニングといった一連の前処理だ。Data Engineering Agentを使用すると、例えばオブジェクトストレージサービス「Google Cloud Storage」から生のファイルにアクセスし、自然言語による指示を出すだけで、自動的にデータのクリーニング、重複排除、フォーマット、標準化ができる。
企業ごとのビジネスルールを反映しやすい点も特徴だ。Data Engineering Agentは、自然言語からパイプラインを生成する際に、ユーザー企業が定義した「カスタムインストラクション」を参照できる。これによって「日付の表記は必ずYYYY-MM-DDに統一する」「売上集計は社内標準の利益率計算を使う」といった自社固有のルールやベストプラクティスを、あらかじめパイプライン生成の前提として組み込める。さらに、BigQueryのユーザー定義関数(UDF)をパイプライン内で活用することで、業種特有の指標計算や検証ロジックを再利用可能なパーツとして埋め込み、自動生成されるパイプラインにも一貫したビジネスロジックを適用できる。
データ品質面についても効果を発揮する。従来は複雑なクエリを作成し、どういったデータが問題になるのか調査したり、データ形式を標準化したりする必要があったが、Data Engineering AgentとDataplexが連携することで、Dataplexリポジトリで定義されたルールに基づいて検査条件(アサーション)を自動生成する上、PIIを含む列を自動的に暗号化できる。
データパイプラインに問題が起きた場合の支援機能もある。問題発生時にData Engineering Agentは実行ログを分析し、障害の根本原因を特定し、解決案を提示する。
企業のデータ活用で時間がかかるのは、実は分析よりも「集める、整える」といった前工程だ。Data Engineering Agentは、その作業を自動化して作業時間の圧縮と担当者依存の軽減につなげる狙いがある。一方で、自動生成の結果が常に正しいとは限らない点には注意が必要だ。レビューと権限管理、ログの記録をセットで運用し、機微情報の扱いには注意を払うべきだ。
Copyright © ITmedia, Inc. All Rights Reserved.
なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...