「AIへのお願い」からプログラミングへ Y Combinatorに学ぶAIエージェント作成法:プロンプト作りのポイントは
AIエージェントの挙動を確かなものにするにはどうすればいいのか。スタートアップ企業を支援する組織Y Combinatorは、最先端AIスタートアップ12社超のプロンプトを調査し、作成のコツを公開した。
「AIエージェントを導入したのに、期待した精度が出ない」「プロンプトを何度も書き換えているが、なぜ改善したのか分からない」――。生成AI活用が広がる中、こうした悩みを抱える企業は少なくない。
スタートアップ企業を支援する組織Y Combinatorが12社以上のAIスタートアップを調査したところ、AIスタートアップが作るプロンプトは「AIへのお願い文」レベルではないという。
AIスタートアップが書くプロンプトの共通点
併せて読みたいお薦め記事
AIエージェントの挙動を改善する
Y CombinatorのCEO、ゲイリー・タン氏や同社の幹部ら4人は、AIカスタマーサポート企業Parahelpのプロンプトを紹介している。その内容は、6ページに及ぶ詳細なものだった。その特徴は以下だ。
Markdown形式で、膨大かつ詳細な構造になっている
Markdown形式の見出しや箇条書きを使い、AIエージェントに何をさせるのかを厳密に構造化する。
役割とステップを明示している
例えば「あなたはAIカスタマーサポートのマネジャーである」と位置付けた上で、他のAIエージェントによるツール呼び出しを承認するのか、却下するのかを判断させる。さらに、判断手順をステップごとに分解し、出力形式まで細かく指定する。
XMLタグを利用している
自然言語の長い文章を入れるのではなく、XMLタグ形式で構造を指定する。タグを使って、AIが計画、判断、出力を混同しないようにする。
プロンプトをAPIとして使えるように設計している
案件やAIエージェントごとにプロンプトを用意しない。共通となる機能やステップは、APIのように機能する「システムプロンプト」として組み立て、案件やAIエージェントに固有のルールやコンテキストは「デベロッパープロンプト」に切り分ける。
つまり、プロンプトを共通仕様と個別仕様で分け、必要に応じて改善したりマージしたりする。
最先端のプロンプトエンジニアリングで使われている手法は?
タン氏らは、最先端のプロンプトエンジニアリングで使われている手法として以下を紹介する。
メタプロンプト(Metaprompting)とプロンプトの折りたたみ(Prompt Folding)
AIにプロンプトそのものを改善させる手法だ。例えば、うまく動かなかったプロンプトと失敗例をAIに渡し、「このプロンプトをどう改善すべきか」と尋ねる。するとAIは、曖昧な指示や不足している条件を見つけ、より詳細なプロンプト案を生成する。
さらに進んだ手法として「プロンプトの折りたたみ」がある。これは、1つのプロンプトが直前の問い合わせ内容や状況に応じて、自分自身の最適化版を動的に生成する仕組みだ。AIエージェントが、状況に合わせて“自分用の作業指示書”を作るようなものだ。
複雑なタスクでは、文章で説明するよりも具体例を与える方が効果的な場合もある。例えばコード内の深刻なバグを検知するAIでは、熟練エンジニアしか見つけられないような難しい不具合例をプロンプトに組み込む。AIはその具体例から、判断の型を学ぶ。
エスケープハッチ(逃げ道)とデバッグ情報の設計
AIモデルには、情報が足りなくてもユーザーを助けようとして答えを作ってしまう傾向がある。これはハルシネーションの原因になる。
そこで、プロンプトに明確な拒否権を与えることが重要だ。例えば「情報が足りない場合はYes/Noで答えるな」「指示が矛盾している場合は判断を止め、開発者に質問せよ」と明記する。
さらに、本番環境の出力形式に`debug_info`のような項目を設ける方法もある。AI自身に「どの指示が分かりにくかったか」「どの情報が不足していたか」を報告させることで、開発者はプロンプト改善のToDoリストを自動的に得られる。
本当の資産はプロンプトではなく「Evals」
Parahelpが実際のプロンプトを公開できた理由は、「本当の企業秘密はプロンプトではない」と考えているからだ。重要なのは、プロンプトの良しあしを判断する評価データ、つまりEvalsだ。
どれほど精巧なプロンプトでも、「どの出力が正解なのか」を判定する評価指標がなければ、安全に改善できない。なぜそのプロンプトが必要なのかも説明できない。
高品質なEvalsを作るには、現場業務を深く理解する必要がある。例えば、ある商材の販売会社向けのAIエージェントであれば、その商材の保証期間、商材の営業部員の業務や人事評価制度まで把握するといった具合だ。
モデルごとの「個性」を使い分ける
AIモデルごとの個性を理解することも大切だ。同じプロンプトや採点基準を与えても、AIモデルの設計思想によって挙動は異なる。タン氏は、ある投資家を評価する採点基準をAIモデルに与え、各モデルの判断の違いを比較した実験を紹介した。
例えばOpenAIの「OpenAI o3」は、基準に非常に厳密に従う「兵士」タイプだという。与えられた評価基準に100%厳密に従い、評価基準から少しでも外れた要素がある場合、容赦なく大幅に減点する。
Googleの「Gemini 2.5 Pro」は、基準を参考にしつつも「このケースは例外として評価すべきではないか」と柔軟に推論する傾向があるという。タン氏らはこれを、「自律性の高い従業員」タイプと表する。
これは、企業がAIエージェントを設計する上で重要な示唆だ。厳格な判定が必要な業務では、採点基準に忠実なAIモデルが向いている。例外判断や文脈理解が重要な業務では、柔軟に推論できるAIモデルが適している可能性がある。
AIエージェントの開発は、「なんとなくよさそうなプロンプト」を書く作業ではなく、役割、手順、出力形式、逃げ道、評価指標、現場知識、モデル特性を組み合わせる「プログラミング」のような作業になりつつある。同時に、「人間の部下をどうマネジメントするか」という「カイゼン」の2つの側面の融合であるとタン氏らは締めくくる。
本稿は、Y Combinatorが2025年5月30日に公開した動画「State-Of-The-Art Prompting for AI Agents」を基に作成しました。
Copyright © ITmedia, Inc. All Rights Reserved.