生成AIの「言ってはいけない」を引き出す“脱獄”　その代表的な手法3選：LLMのリスク管理を考える【中編】

LLMの安全対策を回避し、有害な出力を生成させる技法が「ジェイルブレーク」だ。具体的にどのような手口を用いるのか。代表的な手法を3つ解説する。

≫ 2025年03月12日 07時00分公開

生成AIの「言ってはいけない」を引き出す“脱獄”手法3選

併せて読みたいお薦め記事

連載：LLMのリスク管理を考える

前編：中国製AI「DeepSeek」に冷や水を浴びせた“生成AIの脆弱性”とは？

AIセキュリティに関する話題

　ジェイルブレークとは、大規模言語モデル（LLM）のセーフガード（安全対策）を回避し、本来生成すべきでない偏った内容や有害な出力を引き出すために、特定のプロンプトを巧妙に設計したり、脆弱性を悪用したりする手法を指す。攻撃者はこの手法でLLMを「武器化」し、偽情報の拡散、犯罪行為の助長、攻撃的なコンテンツの生成を可能にしてしまう。

　Palo Alto Networksは、DeepSeekに対して以下3種類のジェイルブレーク技法をテストした。

Bad Likert Judge

　顧客満足度調査で使用される「リッカート尺度」でLLMの回答の有害度を評価し、LLMの操作を試みる手口。リッカート尺度では、特定の主張に対する同意・不同意の度合いを1～5の数値で測る。通常、1が「強く同意」、5が「強く不同意」を意味する。「この発言はどれくらい有害か」のように聞くと、LLMは本来ブロックするべき有害な回答を評価のための例として生成してしまうことがある。

Crescendo

　Crescendoは、特定のトピックに関するLLMの知識を活用し、段階的に制限を突破するマルチターン攻撃の一種だ。攻撃者は関連するコンテンツを徐々に提示しながら指示を出し、最終的にモデルの安全機構を回避して禁止されたトピックへと誘導する。

　巧妙な質問のスキルがあれば、わずか5回のやりとりでジェイルブレークを達成できるほど効果的だという。既存の対策ではこの手口の検出が難しいとされている。

Deceptive Delight

　Deceptive Delightもマルチターン攻撃の一種だ。全体的にポジティブな会話の流れの中に、有害なトピックを無害な話題と組み合わせて埋め込み、防御ルールを回避する。

　例えば、攻撃者はLLMに「ウサギ」「ランサムウェア」「ふわふわの雲」という3つの要素を組み合わせたストーリーを作成させる。まず無害なトピックについて会話を進めながら、それぞれのトピックを詳しく説明させることで、有害なコンテンツの生成へと誘導する。最終的に、有害なトピックに焦点を当て、その詳細な出力を引き出すように促す。

　次回は、LLMのリスクについて企業がどのような対策を講じるべきかを考察する。

Computer Weekly発世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

TechTargetジャパントップエンタープライズAI