社内のRAGも標的に――「間接プロンプトインジェクション攻撃」の脅威とは:生成AIに仕掛けられる“見えないわな”
LLMの安全性を高める手法として注目されてきた「RAG」(検索拡張生成)だが、その仕組みを逆手に取った攻撃手法「間接プロンプトインジェクション」が問題視されている。脅威の実態を解説する。
生成AI(AI:人工知能)は、人間の指示を受け取り、有益な情報を返すように設計されている。では、その「人間の指示」が悪意に満ちたものだった場合はどうだろうか。
2025年4月、英国のAI研究所Alan Turing Instituteの年次イベント「CETaS Annual Showcase 2025」では、大規模言語モデル(LLM)や「RAG」(検索拡張生成)の仕組みを悪用する攻撃のリスクが取り上げられた。
RAGを悪用する「間接プロンプトインジェクション攻撃」とは?
LLMに対して偽情報や有害なコンテンツの生成、機密情報の開示を促すような指示を出した場合、LLMはどのように振る舞うのか。中でも注意が必要なのが、「間接プロンプトインジェクション攻撃」と呼ばれる攻撃手法だ。この手法では、RAGの仕組みが悪用される。
RAGは、LLMが事前学習していない情報にもアクセスできるよう、外部のデータベースから情報を検索・取得し、回答に反映させる手法だ。例えば、AIベンダーOpenAIのAIチャットbot「ChatGPT」にメールの要約を依頼する場合、LLM単体では文脈を十分に理解できないことがあるが、RAGを使えば社内文書やメールといった外部情報を参照することで、より適切かつ正確な出力が可能になる。
攻撃者はこの仕組みを悪用し、RAGの参照元となる文書やメール、Webページの中に悪意ある命令文を紛れ込ませる。LLMは、それが意図的に仕込まれたものであることに気付かず、命令を実行してしまう恐れがある。「誰でも自然言語を通じて簡単にLLMを操作できるよう設計されているため、攻撃者にとっても悪意ある命令を仕込むのは難しくない」。AIシステムの安全性評価を手掛けるAdvaiでソリューションアーキテクトを務めるマシュー・サットン氏はそう説明する。
例えば、新規プロジェクトの入札において、自社の提案書にLLM向けの隠れた指示を埋め込み、客先のLLMがそれを読み込むことで、その提案を競合他社よりも優位に見せたり、意図的に無視させたりする、といった操作も理論上は可能だ。「このような仕込みは、必ずしも高度なプログラミングスキルを必要とせず、誰にでも実行できる」(サットン氏)
このように、LLMに提供される情報は常に信頼できるとは限らない。サットン氏は、「LLMが出力する回答にはしばしば参照元のソースが付記されるが、その信頼性もうのみにすべきではない」と指摘する。一方で、出力のたびに参照情報を一つ一つ精査しなければならないとすれば、LLMの利便性そのものが損なわれかねないというジレンマもある、と同氏は付け加える。
翻訳・編集協力:雨輝ITラボ(株式会社リーフレイン)
Copyright © ITmedia, Inc. All Rights Reserved.