AIエージェントの導入が進む中、応答速度の低下やコストの増大が課題となっている企業がある。こうした問題を改善する技術が「プロンプトキャッシング」だ。本稿では、その仕組みや運用のポイントを紹介する。
生成AIやAIエージェントの導入が進む中、多くの企業では「応答速度が遅い」「API利用料金が想定以上に膨らむ」といった課題が顕在化している。特に、社内文書やマニュアル、業務ルールを大量に読み込ませるRAG(Retrieval-Augmented Generation)やAIエージェントでは、毎回同じ情報をLLM(大規模言語モデル)が繰り返し処理しているケースが少なくない。
こうした無駄な計算を削減し、応答速度とコスト効率を改善する技術として注目されているのが「プロンプトキャッシング」(prompt caching)だ。
IBMのマーティン・キーン氏(マネジャー兼IBMテクニカルトレーニングコンテンツクリエイター)によると、プロンプトキャッシングは「同じ質問への回答を保存して再利用する仕組み」のようにも思えるが、その仕組みは従来のキャッシュとは大きく異なる。本稿では、プロンプトキャッシングの仕組みや効果、活用するためのプロンプト設計について整理する。
一般的なキャッシュというと、多くの人は「一度計算した結果を保存し、次回はその結果を返す仕組み」を思い浮かべるだろう。
例えばデータベースでは、同じSQLクエリが再度実行された場合、過去の検索結果をそのまま返すことで処理を高速化できる。同様にLLMでも、同じプロンプトに対して過去の回答を保存し、それを再利用する「出力キャッシュ」(Output Caching)という考え方がある。
しかし、プロンプトキャッシングはこれとは別物だ。プロンプトキャッシングが保存するのは「回答」ではなく、「入力プロンプトを理解するための計算結果」である。そのため、ユーザーごとに異なる質問をしても、共通部分の計算をやり直す必要がなくなり、処理時間やコストを削減できる。
つまり、「回答を再利用する技術」ではなく、「入力の理解に必要な計算を再利用する技術」と考えると分かりやすい。
LLMは、プロンプトを受け取るとすぐに文章を生成している訳ではない。まず、Transformerと呼ばれるアーキテクチャの各層で、入力されたトークン同士の関係性や文脈を解析する。この際に生成される内部データが「Key-Valueペア」だ。
KVペアは、「どの単語がどの情報と関連しているのか」「どの情報を重視すべきか」といったモデル内部の理解を表現したデータと考えることができる。
この計算は、LLMが最初の1トークンを生成する前のフェーズで実行される。しかし、数千〜数万トークンを含む長文を扱う場合、この工程だけでも大きな計算資源と時間を必要とする。
プロンプトキャッシングでは、この事前計算されたKVペアを保存しておく。次回以降、同じ入力部分が現れた場合には、その計算結果を再利用し、新たに追加された部分だけを処理すればよい。その結果、応答速度の向上とAPI利用コストの削減が期待できる。
短い質問では、プロンプトキャッシングによる恩恵はそれほど大きくない。例えば、「東京都の人口は?」のような数語程度の入力は、もともとの計算負荷が小さいからだ。
効果が大きいのは、毎回共通して利用する長文データである。最も代表的なのが、AIの役割や口調、振る舞いを定義する「システムプロンプト」である。AIチャットbotやAIエージェントでは、この指示文はほぼ固定であるため、キャッシュとの相性が良い。
他にも、以下もキャッシュ対象となる。
例えば、50ページの製品マニュアルを毎回読み込ませ、「保証期間は?」「返品条件は?」「修理方法は?」と異なる質問を繰り返す場合、本来なら毎回50ページ分を解析し直さなければならない。
しかしプロンプトキャッシングがあれば、マニュアル部分の計算結果を再利用し、新しい質問だけを追加で処理すれば済むため、大幅な効率化につながる。
プロンプトキャッシングでは、「プレフィックスマッチング」(prefix matching)という仕組みでキャッシュを利用する。システムは、プロンプトの先頭から順番に1トークンずつ比較し、一致している部分についてのみキャッシュを再利用する。そして、最初に異なるトークンが現れた時点で照合を終了し、それ以降は通常通り計算を実施する。
そのため、プロンプト設計では「変わらない情報」を前に、「毎回変わる情報」を後ろに配置することが重要となる。
例えば、以下の順番で構成すれば、質問が変わっても1〜3の計算結果を再利用できる。
一方、以下の順番で構成すると、質問が変わった瞬間に先頭部分の一致が失われる。
その結果、後ろに続く同じマニュアルや指示文まで含めて再計算しなければならず、キャッシュのメリットを得にくくなる。
AIエージェントやRAGを設計する際には、「何を書くか」だけではなく、「どの順番で配置するか」も性能を左右する要素になる。
プロンプトキャッシングは万能ではない。一般的に、効果を発揮するには1024トークン以上の入力が必要とされる。それ以下では、キャッシュを管理するオーバーヘッドの方が大きくなり、十分なメリットが得られない場合がある。
さらに、キャッシュは永続的に保存されるわけではなく、多くのサービスでは5〜10分程度で削除される。サービスによっては最大24時間保持されるケースもあるが、永続的な保存を前提に設計することはできない。
クラウド事業者によって実装方法も異なる。プロンプトの一致を自動判定してキャッシュを利用する「自動キャッシング」を採用するサービスもあれば、API側でキャッシュ対象を明示的に指定する「明示的キャッシング」を採用するサービスも存在する。
生成AIの性能向上というと、新しいモデルへの注目が集まりがちである。しかし実際の企業利用では、「どのようなプロンプトを設計し、どのようにキャッシュを活用するか」が、応答速度や運用コストを左右する重要な設計要素になりつつある。AIエージェントの活用が広がる今後は、プロンプトキャッシングを前提としたプロンプト設計がAIシステム全体の効率化につながるだろう。
本稿は、IBM Technologyが2026年2月7日に公開した動画「What is Prompt Caching? Optimize LLM Latency with AI Transformers」を基に作成しました。
Copyright © ITmedia, Inc. All Rights Reserved.
瞬時にM365が乗っ取られる――全社員に周知すべき“新フィッシング”の教訓
MFA(多要素認証)を入れたから安心という常識が崩れ去っている。フィッシング集団「Tycoon2FA」が摘発されたが、脅威が完全になくなったというわけではない。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...