現場で求められるのは「万能AI」ではない？　本当に“使えるAI”の条件は？：AIの実用性を再考する【前編】

AIエージェントが企業の関心を集めると同時に、その課題も浮き彫りになっている。現場で成果を上げるAIシステムとは、具体的にどのようなものなのか、

≫ 2025年07月23日 07時00分公開

[Lev Craig，TechTarget]

　AI（人工知能）市場では、自律的にタスクを遂行できる「AIエージェント」が注目されている。マサチューセッツ工科大学（MIT：Massachusetts Institute of Technology）の技術誌MIT Technology Reviewが2025年5月に主催したカンファレンス「EmTech AI 2025」では、AIベンダーOpenAIが開発中のAIエージェント「Operator」のデモを披露した。その内容は革新的であると同時に、現時点でのAIエージェントが抱える課題も浮き彫りにするものだった。本稿は、「現場で真に求められているAIシステムとは何か」という問いについて改めて考える。

現場で使えるのは「万能なAIエージェント」ではなかった？

併せて読みたいお薦め記事

AI導入と現場のリアル

　OpenAIのリサーチサイエンティストであるナカノ・レイイチロウ氏と、新製品開発チームのエンジニアを務めるヤシュ・クマール氏は、EmTech AI 2025のセッションでAIエージェントOperatorのデモを披露した。

　Operatorはクリックやスクロール、テキスト入力といった操作を通じて、人間のようにインターネット上のさまざまなタスクを遂行する。デモでは、以下のような日常的なタスクを題材とした。

カンファレンスの登壇者の検索とビジネス向けSNS（ソーシャルネットワーキングサービス）「LinkedIn」での情報収集
チケットの転売サイト「StubHub」でのバスケットボールチケットの購入
配達サービス「Instacart」での食料品の注文

　Operatorの見た目のインタフェースは洗練されていたものの、動作は遅く不安定な印象を受けた。OpenAIは3つのデモを同時に実施したが、これはOperatorのマルチタスク性能を示す意図と同時に、個別の処理速度の遅さを目立たなくする目的もあったのではないかと思われる。

　特に印象的だったのは、Operatorが頻繁にユーザーの確認を求める点だ。Operatorは簡単な操作のたびに承認を求め、まるで上司の指示を逐一仰ぐ新人のように感じられる。もっとも、こうした煩わしさは意図的に設計されたものだ。クマール氏とナカノ氏は、Operatorのこうした挙動を「安全性を担保するための設計」だと説明しており、ミスや意図しない動作を防ぐために確認を求めるようAIモデルを訓練しているという。「現実世界に影響を与える可能性のある操作では、必ずユーザーに確認を求めるようにしている」（ナカノ氏）

　一方、「安全性」と「使いやすさ」はトレードオフの関係にある。確認作業が増えるほどAIエージェントの自律性は低下し、ユーザー体験にも影響を及ぼす。加えて、現時点のAIエージェントは、推論力や長期的な計画遂行能力に限界があり、単純なタスクであっても失敗する可能性がある。

　セッション中、Operatorの最も成功した例として挙げられたのは、「社内システムから請求書を自動取得する」というごくシンプルな業務自動化タスクだった。実用的な業務支援ではあるが、高度なAI技術というよりは堅実なRPA（業務自動化）に近く、マルチステップのワークフローには依然苦戦している印象だ。Operatorが得意とするタスクの長さは「10～15分程度」とされており、実行結果については、正確性やセキュリティの観点から人の目による確認が依然として欠かせない。

実用的価値を発揮する「業務特化型AI」

　汎用（はんよう）的なAIエージェントの限界が見えてきた中で、実務において確かな成果を求める企業は、あえて用途を絞り込んだ「業務特化型AI」に注目している。汎用的な推論能力ではなく、特定の業務を正確かつ効率的に遂行することに重きを置いたもので、既に現場での実用性が証明されつつある。

　例えば、OpenAIの「GPT」シリーズやAnthropicの「Claude」などに代表される基盤モデルは、インターネット上の膨大なデータを学習し、幅広いタスクに対応できるのが特徴だ。一方で、業務特化型AIは、あらかじめ定義された分野向けに高い精度と信頼性を発揮するよう設計されている。

　リーガルテック企業LuminanceのCEOエレノア・ライトボディー氏は次のように話す。「詩を書いたりレシピを考えたりする上で、基盤モデルは非常に優秀なツールだ。一方、弁護士と連携して業務を進める場面では、常に正確な回答が求められる。曖昧な回答を出力するくらいなら、“分からない”と人間に知らせる仕組みの方が重要だ」

　AIスタートアップPoolsideで運用担当バイスプレジデントを務めるマルガリダ・ガルシア氏は、セッションの中で次のように話した。「AIモデルには“文脈”が必要だ。文脈が豊かであればあるほど、より適切な回答や成果物が得られるようになる」

　「ChatGPT」や「Claude」といった大規模言語モデル（LLM）は誰でも簡単に利用できるが、単体で実用的な成果を得ることは難しい。成果を引き出すには、適切なコンテキストウィンドウ（生成AIがやりとりの中で保持する情報量）、信頼性を担保する検証レイヤー、業務に合わせた制約条件など、周辺設計が不可欠だ。こうした設計の巧拙が、最終的な使いやすさや成果に大きく影響する。

　実際、多くの業務特化型AIツールは、単なるユーザーインタフェース（UI）の工夫にとどまらず、独自開発のAIモデルや処理を統制するオーケストレーションレイヤーなど、複数の高度な要素を統合して設計されている。