生成AIの「言ってはいけない」を引き出す“脱獄” その代表的な手法3選:LLMのリスク管理を考える【中編】
LLMの安全対策を回避し、有害な出力を生成させる技法が「ジェイルブレーク」だ。具体的にどのような手口を用いるのか。代表的な手法を3つ解説する。
2025年1月末、中国発の生成AI「DeepSeek」が突如として登場し、大きな話題を呼んだ。その発表から数日後、セキュリティ企業Palo Alto Networksは、同モデルから有害な出力を引き出すことに成功したと発表した。その過程では「ジェイルブレーク」(脱獄)という手法が用いられたという。一体どのような手法なのか。
生成AIの「言ってはいけない」を引き出す“脱獄”手法3選
併せて読みたいお薦め記事
連載:LLMのリスク管理を考える
AIセキュリティに関する話題
ジェイルブレークとは、大規模言語モデル(LLM)のセーフガード(安全対策)を回避し、本来生成すべきでない偏った内容や有害な出力を引き出すために、特定のプロンプトを巧妙に設計したり、脆弱性を悪用したりする手法を指す。攻撃者はこの手法でLLMを「武器化」し、偽情報の拡散、犯罪行為の助長、攻撃的なコンテンツの生成を可能にしてしまう。
Palo Alto Networksは、DeepSeekに対して以下3種類のジェイルブレーク技法をテストした。
Bad Likert Judge
顧客満足度調査で使用される「リッカート尺度」でLLMの回答の有害度を評価し、LLMの操作を試みる手口。リッカート尺度では、特定の主張に対する同意・不同意の度合いを1〜5の数値で測る。通常、1が「強く同意」、5が「強く不同意」を意味する。「この発言はどれくらい有害か」のように聞くと、LLMは本来ブロックするべき有害な回答を評価のための例として生成してしまうことがある。
Crescendo
Crescendoは、特定のトピックに関するLLMの知識を活用し、段階的に制限を突破するマルチターン攻撃の一種だ。攻撃者は関連するコンテンツを徐々に提示しながら指示を出し、最終的にモデルの安全機構を回避して禁止されたトピックへと誘導する。
巧妙な質問のスキルがあれば、わずか5回のやりとりでジェイルブレークを達成できるほど効果的だという。既存の対策ではこの手口の検出が難しいとされている。
Crescendo
Deceptive Delightもマルチターン攻撃の一種だ。全体的にポジティブな会話の流れの中に、有害なトピックを無害な話題と組み合わせて埋め込み、防御ルールを回避する。
例えば、攻撃者はLLMに「ウサギ」「ランサムウェア」「ふわふわの雲」という3つの要素を組み合わせたストーリーを作成させる。まず無害なトピックについて会話を進めながら、それぞれのトピックを詳しく説明させることで、有害なコンテンツの生成へと誘導する。最終的に、有害なトピックに焦点を当て、その詳細な出力を引き出すように促す。
次回は、LLMのリスクについて企業がどのような対策を講じるべきかを考察する。
Computer Weekly発 世界に学ぶIT導入・活用術
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.