AIが期待通りに動かない原因? 「データエンジニアリング」が大事な理由:Pure Storage幹部インタビュー
AIモデルの調整を繰り返しても、期待した成果が得られない原因は、学習以前のプロセス「データエンジニアリング」にある可能性がある。Pure StorageのAI担当が、データエンジニアリングの重要性を語る。
AI(人工知能)技術関連の処理(AIワークロード)を滞りなく実行するには、コンピューティングリソースやストレージを補強するだけでは不十分だ。もちろん、十分な処理能力や、適切な速度でデータを供給できるストレージは必要不可欠だ。だがそれ以前に、AIモデルの学習に使うデータの質を確保することが、プロジェクトの成功を左右する。
これは、ストレージベンダーPure StorageでAIインフラストラクチャ担当バイスプレジデントを務めるパー・ボーツ氏が、ラスベガスで開催された同社のイベント「Pure//Accelerate 2025」で強調したメッセージだ。
ボーツ氏は、AI技術活用に取り組む企業に対してデータの収集、整理、準備、調整の必要性を強調する。AI技術が解決しようとする課題に対して、データが不完全であったり不適切であったりすることがあるからだ。
AI技術活用を成功させる鍵は、ハードウェアの先にあるデータそのものにある。本稿はボーツ氏へのインタビューから、AI技術活用におけるデータエンジニアリングの本質と、企業が取るべきアプローチを探る。
ハードウェア整備よりも「データ整備」がAI活用に重要な理由
―― Pure Storageが考える、AIワークロード用のストレージにおける主要な課題とは何でしょうか。
ボーツ氏 AI技術で課題を解決するためのシステムを構築することは容易ではない。まずデータを整理、収集、準備するプロセスを整え、次にそのデータをGPU(グラフィックス処理装置)に高速供給するインフラを確立する必要がある。この一連の流れがうまく連携できる仕組みがなければ、そのようなシステムを構築することは困難だ。
―― 困難にしている要因は何でしょうか。
分かりやすいのは、「どのようにしてGPUにデータを供給するか」という課題だ。GPUの優れた計算速度を最大限に活用するには、それに見合うだけのデータを供給し続ける必要がある。そのためには膨大な帯域幅(通信路容量)が欠かせない。
ただし、GPUがデータを消費する速度に合わせてデータを供給し続けるのは容易ではない。大量のデータをGPUに供給できるネットワークインフラを備え、大規模な予算と計算リソースを投じて最先端のAIモデル開発を進める大手IT企業は、この課題を解決できるようになってきた。だが一般的な企業にとっては、これまで扱ったことのない新しいシステムであり、新たなスキルが求められる。
これは技術的に難しいというよりも、運用面での課題だと言える。ほとんどの企業にとって、こうしたシステムの運用はこれまで培ってきたノウハウが通用しない未知の領域だからだ。
データの準備も課題だ。どのような方法でデータを収集、評価、追跡するのか。どのAIモデルがどのデータセットで学習されたのかをどう管理するのか。データセットが網羅的であることをどう確認するのか。これらは非常に難しい課題だ。
―― その課題は、企業やAIワークロードによって異なるのでしょうか。社内担当者の専門知識によって、必要なデータが全てそろっていると分かる場合もあれば、そうではない場合もあるかと思います。
必要なデータが全てそろっているかどうかを、論理的に検証せずに把握するのは極めて困難だ。例を挙げよう。
私は長年、自動運転車の開発、具体的には認知ネットワーク(周囲の状況を認識するためのAIモデル)や運転システムの構築に携わってきた。その中で、特定の条件下で自動運転の精度が低下する事態に頻繁に遭遇した。周囲に他の車がいる状況で、左にカーブしながら緩やかに上る坂道がその例だ。この状況に適合する学習データが不足していることに気付いたのは後のことだった。
このように、必要なデータを洗い出し、その網羅性や範囲を検証し、必要なデータを収集して偏りがないかどうかを数学的に確かめるというアプローチは、最先端のAI技術を開発している企業以外ではまだ一般的ではない。
―― AIワークロードで発生しがちなこれらの課題を理解した上で、企業はどのような対策を講じることができるでしょうか。
私が推奨する一般的なアプローチは、自社のデータエンジニアリングのプロセスについて考えることだ。そのため当社は、データレイクハウス(注1)などを手掛けるデータエンジニアリング企業と提携している。
※注1:大量の未加工データを蓄積する「データレイク」と、特定の目的のために整理、加工されたデータを格納する「データウェアハウス」(DWH)を融合させた技術。
「新たに入ってくるデータを、どのようにデータレイクハウスに集約して管理するか」「データレイクハウスを使って、どのようにデータをクレンジングし、学習のために準備するか」といったことを検討してほしい。場合によっては、データを変換して、AIモデル学習用システムで扱える状態にする方法も考える必要がある。まずは自社のデータエンジニアリングについて考え、AI技術活用の準備をどう進めるのかを検討することから始めるべきだ。
―― データエンジニアリングとは、どのような要素で構成されるのでしょうか。
データエンジニアリングは一般的に、社内のデータベースや構造化されたシステムなど、さまざまな場所に存在するデータを自由に取得できる仕組みを確立することから始まる。次に、それらのデータを扱いやすい形式でデータレイクハウスに取り込む。複数のリポジトリ(保管庫)にまたがる可能性のあるデータセットから必要なデータを選択し、変換したら、学習させたい内容を反映したデータセットを作成する。この一連のプロセスがデータエンジニアリングだ。
―― 企業はデータレイクハウスをどのようなストレージで、どのような形で運用しているのでしょうか。
クラウドベンダーが提供するクラウド型データレイクハウスを利用するか、ストレージベンダーが提供するオンプレミスシステムで運用することになる。当社はデータレイクハウスベンダーなど複数の企業と協業し、それらのパートナー企業の製品と当社のストレージを組み合わせた製品を提供している。
もちろん、データレイクハウスを稼働させるには高速で安定した動作を可能にするストレージが必要だ。そうしたストレージの主な構成要素としては、データレイクハウス用のデータベースシステム、データベースの土台になるインフラ、そのシステム全体を学習用のストレージに接続する仕組みがある。
―― データエンジニアリングは、一度取り組めばよい課題なのでしょうか。それとも企業がAI技術活用に取り組む限り、継続的に発生するものなのでしょうか。
継続的なプロセスになる。AI技術活用に踏み出すと、新しく生成されたデータを記録、変換して、自社のAIツールに組み込みたくなるものだ。それはAIモデルと外部データを連携させるRAG(検索拡張生成)でも、特定用途向けのデータセットでAIモデルを調整するファインチューニングでも、独自のAIモデルを構築する場合でも同じだ。
企業がAI技術の活用を始めれば、その後はデータを常に拡充し、改善し続けることになる。AIツールの使用データや履歴を基に、AIモデルに与える学習データも変化させなければならない。
データエンジニアリングでは、「このデータはどこで生まれたのか」「このデータはどこで使われたのか」「データの来歴はどうか」といった複数の点を考慮する必要がある。エンドユーザーがAIモデルを利用する際に、どのような問いを投げ掛け、AIモデルがどのような答えを返すのかも考える必要がある。
AI技術活用を続ける中で、エンドユーザーとAIモデルのやりとりを保存し、品質保証や将来の追加学習に活用したいと考えるはずだ。これを、われわれは「AIデータのフライホイール(好循環)」と呼んでいる。データを取り込み、それを基にデータが生まれるサイクルは止まることがない。
―― その他に、企業が注目すべき点はありますか。
「このデータは一体何なのか」「何を表現しているのか」も考えるべきだ。学習データに欠陥(ギャップ)があれば、AIモデルはそのギャップを埋めようとする。その補完が間違っていた場合、われわれはそれを「ハルシネーション」(幻覚)と呼ぶ。
重要なのは、データのどこにギャップがあるのかを知るために、データを十分に理解することだ。ギャップがあると分かれば、それを埋める方法を見つけられる可能性がある。そうした高度な知見を持つようになれば、高度なシステムも扱えるようになる。
まずはサービスに何を送り、何が返ってくるのかを記録することから始めてほしい。それが、データ管理という専門分野の基礎を築くことになる。データエンジニアリングとストレージの間には、さらにデータ管理という専門分野が存在する。
データエンジニアリングはできるだけ早く着手することが望ましい。単にサービスを使う以上のことをする準備ができたときには、データエンジニアやストレージが扱うべき最初のデータ群が手元にあることになるからだ。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。