特集／連載

2026年5月2日

AIエージェントの“トークン爆食い”を防ぐ「トークンマキシング」とは：トークンコストで絶望しないために【後編】

AIエージェント運用時のトークン消費増大が企業の課題となりつつある。専門家は「トークンマキシング」による最適化やFinOpsを活用した管理体制の構築を提言する一方、より大きな視点で考えるべきだと指摘する。

[Sean Michael Kerner，TechTarget] PC用表示関連情報

LINE

Hatena

　AI（人工知能）エージェントを運用したところ、想定外のトークン消費量とコスト増大に見舞われたという企業がある。大規模言語モデル（LLM）が処理・生成するテキストの基本単位であるトークンは、その量に応じて課金されるため、使い方には注意が必要だ。

　そこで利用したいのが、トークン消費を最適化し、少ないトークンで最大の成果を出す「トークンマキシング」（Tokenmaxxing）という考え方だ（トークンマキシングは「無駄にトークン消費量を競う行動」を指す用法も広まっているが、本記事ではTechTargetの定義に従い「トークンを最大限活用するコスト最適化」の意味で使用する）。

　具体的にはどのようなアクションがあるのか、紹介する。

トークン量を抑制する施策を紹介

併せて読みたいお薦め記事

連載：トークンコストで絶望しないために

前編：気づけば請求額が爆発　LLMコストを膨らませる4つの落とし穴

AIツール利用の勘所を把握する

　出力の質を維持しながらトークン量を少なくし、成果を挙げるための手法はいくつか存在する。

1．適切なモデルを選定する

　全てのタスクに最高性能のモデルを使うのではなく、タスクに応じて最適なモデルに振り分ける。フェンディング氏は、調査には高性能なモデル、ファイル取得や書式設定には安価なモデルと、使い分けるという。これだけでコストを60％削減できたという。

2．コンテキストを管理する

　モデルには必要な情報だけを与える。全文書ではなく要約やキャッシュを活用する。

3．AIエージェントの無駄な動作を制限する

　リトライ回数、ツール呼び出し、ループの深さに制限を設ける。マリク氏は、出力トークンが課金対象であることを踏まえ、回答の長さも制限することを推奨する

トークン消費をFinOpsで制御するには

　クラウドサービスの支出と実際の利用実態を合致させ、無駄を削減する費用管理手法「FinOps」を使ってトークンの支出を制御するのも1つの手だ。

　調査会社The Futurum Groupの副社長兼プラクティスリードを務めるディオン・ヒンチクリフ氏は、トークンの使用が新たな「シャドーIT」化することを防ぐためのガバナンス手法だと強調する。

　ヒンチクリフ氏によると、AI活用が成熟している企業では、3層構造のガバナンスモデルを導入しているという。

1．プラットフォームレベル

　CIOがクォータ（割り当て上限）やレートの制限、高額なレートのモデルへのアクセス権限を設定する。

2．アプリケーションレベル

　トランザクションごと、業務成果ごとにコストを追跡する。

3．エグゼクティブレベル

　顧客対応1件当たりやサポート解決1件当たりのコストを追跡する。AIのユニットエコノミクス（単位当たりの採算性）を確認する。

　重要なのは、APIの呼び出し回数だけでなく、トークン消費をビジネスの成果にひも付けることだ。ソフトウェアベンダーSecure Code Warriorの共同創設者兼CTOのマティアス・マドゥ氏は、「生成されたコードの品質やセキュリティとトークン支出を関連付けることで、実態に基づいた客観的な視点が得られる」と述べる。

コストを可視化する4つの指標

　AIを大規模に運用している企業の中には、ワークロード当たりのコストを把握できていないところもある。その場合、4つの指標でコストを可視化することも一考だ。

1．1000トークン当たりのコスト

　1000トークン当たりのコストをモデル別で比較する。高額なモデルと低価格モデルの同一ワークフロー内比較が可能となる。

2．1リクエスト当たりのトークン数

　入力と出力のトークン量を追跡し、過剰な消費をしているワークロードを特定する。

3．業務成果1件当たりのコスト

　トークン数だけでは生産性を判断することはできない。そこでヒンチクリフ氏が紹介するのが、「エージェンティックワークユニット」（AWU：Agentic Work Unit）だ。Salesforceが提唱する概念で、ビジネス成果を完了するためのコストを測定するものだ。

4．レイテンシとコストのトレードオフ

　LLMがリクエストを受けてから応答を返すまでの時間にどれだけのコストを支払っているかを可視化する。出力の精度の高さと出力までの時間を比較して、用途によってLLMを使い分けるという考え方だ。

トークン管理の不備がもたらすリスクは？

　トークン管理の不備によって、セキュリティやコンプライアンスのリスクが発生することもある。例えば以下だ。

1．データの漏えい

　プロンプトやRAG（検索拡張生成）のコンテキストに個人情報が含まれているケースや、AIエージェントがツールを呼び出す際に認証情報を貼り付けるといったケースがある。

2．監査の不備

　多くの導入事例では、モデルへの質問や回答の記録が残っていない。フェンディング氏は、AIエージェントが作成した契約条項や顧客へのメッセージなどは、ログとして記録する必要があると強調する。

3．プロンプトインジェクションの発生

　攻撃者が悪意のあるプロンプト（命令）をLLMに与える「プロンプトインジェクション」が発生する恐れがある。

4．マスタートークンの管理不備

　複数のAIエージェントがマスタートークン（特定のAIモデルやシステムを制御、解除、操作できる認証情報や制御コード）を共有していると、どのAIエージェントが実行したか特定できず、企業として説明責任を果たせなくなる恐れがある。

5．データ主権の不備

　APIの認証管理が不適切な場合、攻撃者が規制対象外の地域から欧州の機密データにクエリを投げ、制裁金の対象となる恐れがある。

今すぐ取り組むべきアクションは？

　トークンの使用量は、かつてのコンピューティングやストレージと同様に、監視と統制が可能なリソースだ。

　そこでマリク氏は、以下のアクションを優先して実施するよう推奨する。

プロンプトに含めてよいデータ、問題があるデータを分類する
LLMに呼び出す前にデータを匿名化、最小化する
検索やメモリ層へのアクセスを制御する
ワークロードレベルで利用ログを記録する
AIエージェントの導入に際してガードレールを設置する

　ヒンチクリフ氏は「トークンガバナンス、コストガバナンス、データガバナンスを統合することは急務だ」と指摘する。これを早期に認識し、枠組みを構築できたCIOこそが、AIを安全かつ経済的に拡張できる。