気づけば請求額が爆発 LLMコストを膨らませる4つの落とし穴:トークンコストで絶望しないために【前編】
LLMの利用拡大に伴い、入力・出力トークンの消費増加が課題となっているという声がある。トークンの請求額を膨らませる4つの要因と、増大を誘発させる従業員のアクションを紹介する。
トークンは、大規模言語モデル(LLM)が処理・生成するテキストの基本単位だ。プロンプトと回答に含まれる単語はトークンに分割され、その量に応じて課金される。
この支出を改善する手法に「トークンマキシング」(Tokenmaxxing)がある。トークンマキシングは、本来は従業員がAI使用量を競って「Token Legend」などのリーダーボード上位を狙い、トークン消費を最大化する行動を指す言葉として広まった。しかし、CFO(最高財務責任者)へのAIコスト説明を求められるCIO(最高情報責任者)の間では、より少ないトークンで最大の成果を出すコスト最適化を意味する用法も生まれている。本記事は後者の文脈で、トークンの請求額を膨らませる要因と、無駄な消費を引き起こすアクションを紹介する。
トークンマキシングの壁となるアクションは?
併せて読みたいお薦め記事
AIツール利用の勘所を把握する
LLMの取引には2つの側面がある。入力トークンは、システムプロンプト、会話履歴、参照文書、ユーザーのクエリなど、モデルに送信される全てをカバーする。出力トークンは回答をカバーし、モデルやプロバイダーにもよるが、通常は入力の2倍から4倍のコストがかかる。
価格はLLMの階層によっても異なる。最先端のフロンティアモデルは、小規模モデルよりも1000トークン当たりの単価が大幅に高い。
Deloitte Consultingで米国ハイブリッドクラウドインフラリーダーを務めるクリス・トーマス氏は、LLMをデプロイする方法によってもコストは変わると指摘する。オンプレミス、パブリッククラウドのAPI、コロケーションでは、同じモデルでもコストが異なる。「LLMで浪費してしまう理由の1つは、コスト構造全体でトークンがどこでどのように生成されるかを組織が理解していないことだ」とトーマス氏は言う。
トークンの請求額を膨らませる4つの要因
基本料金以外にも、トークンの請求額を膨らませる4つの隠れた要因がある。
1.プロンプトが長すぎる
毎回の呼び出しで、全文書やフィルタリングしていない検索結果全体をプロンプトに入力すると、1回あたりの入力トークン数が急増する。
2.文脈を毎回再投入する
呼び出しごとに同じシステムプロンプトやコンテキストを再送すると、同一トークンに繰り返し料金を支払う状態となる。
3.出力長の制限を明示しない
出力長の制限を明示しないと、LLMは必要以上に長いテキストを返す傾向がある。
4.AIエージェントを無駄にループさせてしまう
AIエージェントに明確な終了条件を設けないと、AIエージェントは再計画(re-plan)やモデル再呼び出し(recursive calls)を繰り返し、トークンのコストは爆発的に増える。
コスト増大につながるアクションは?
コストに影響する要因を知ることは重要だが、トークンの請求額を膨らませる行動を誘発させないことも大切だ。
「最大の浪費は会話ではなく構造にある」。ヘルスケアや非営利セクターでCIOやCTOを歴任したOrdovera Advisoryのマネジングディレクター、ブライアン・フェンディング氏はこのように説明する。「3パラグラフで済ませられるプロンプトのはずが、例えばクエリに入力するたびに50ページの文書を読み込むシステムを運用しているのであれば、設計段階の判断ミスでトークンを無駄に消費している状態だ」
AT&TのリードデータAIエンジニアであるモニカ・マリク氏は、一般的な導入環境で見られる複数の非効率なパターンとして以下を挙げる。
- 過剰なコンテキストを入力している
- 必要なのは一部であるにもかかわらず、文書全体や長いチャット履歴をプロンプトに流し込む。
- デフォルトで最上級モデルを使用する
- 分類、抽出、要約、ルーティングなどの作業は、安価なモデルで十分対応可能だ。
- RAG(検索拡張生成)の状態が不適切
- 検索するデータの中に不要なものが混ざっている。あるいは、フィルタリングやランキングをせずに生のテキストをそのまま渡している。
- プロンプトが肥大化している
- システムプロンプトや書式ルールを際限なく追加し、テンプレートがコスト高でメンテナンスが困難になっている。
- キャッシュを使っていない
- プロンプトや要約を再利用せず、呼び出しのたびに出力を再生成させている。
「LLMの導入初期は、コストを意識した設計よりも、導入の速さを優先しがちだ」。マリク氏はこう指摘する。しかし、利用規模が拡大すればコストは積み上がる。ソフトウェアベンダーJellyfishでAI研究の責任者を務めるニコラス・アルコラーノ氏は、「過剰にトークンを使っている状態からは、タスクの定義不足や不要な入力の繰り返しがうかがえる」と指摘する。
後編では、トークン量を抑制するための施策を紹介する。
Copyright © ITmedia, Inc. All Rights Reserved.