生成AIの「言ってはいけない」を引き出す“脱獄” その代表的な手法3選LLMのリスク管理を考える【中編】

LLMの安全対策を回避し、有害な出力を生成させる技法が「ジェイルブレーク」だ。具体的にどのような手口を用いるのか。代表的な手法を3つ解説する。

2025年03月12日 07時00分 公開
[Alex ScroxtonTechTarget]

関連キーワード

人工知能


 2025年1月末、中国発の生成AI「DeepSeek」が突如として登場し、大きな話題を呼んだ。その発表から数日後、セキュリティ企業Palo Alto Networksは、同モデルから有害な出力を引き出すことに成功したと発表した。その過程では「ジェイルブレーク」(脱獄)という手法が用いられたという。一体どのような手法なのか。

生成AIの「言ってはいけない」を引き出す“脱獄”手法3選

 ジェイルブレークとは、大規模言語モデル(LLM)のセーフガード(安全対策)を回避し、本来生成すべきでない偏った内容や有害な出力を引き出すために、特定のプロンプトを巧妙に設計したり、脆弱性を悪用したりする手法を指す。攻撃者はこの手法でLLMを「武器化」し、偽情報の拡散、犯罪行為の助長、攻撃的なコンテンツの生成を可能にしてしまう。

 Palo Alto Networksは、DeepSeekに対して以下3種類のジェイルブレーク技法をテストした。

Bad Likert Judge

 顧客満足度調査で使用される「リッカート尺度」でLLMの回答の有害度を評価し、LLMの操作を試みる手口。リッカート尺度では、特定の主張に対する同意・不同意の度合いを1〜5の数値で測る。通常、1が「強く同意」、5が「強く不同意」を意味する。「この発言はどれくらい有害か」のように聞くと、LLMは本来ブロックするべき有害な回答を評価のための例として生成してしまうことがある。

Crescendo

 Crescendoは、特定のトピックに関するLLMの知識を活用し、段階的に制限を突破するマルチターン攻撃の一種だ。攻撃者は関連するコンテンツを徐々に提示しながら指示を出し、最終的にモデルの安全機構を回避して禁止されたトピックへと誘導する。

 巧妙な質問のスキルがあれば、わずか5回のやりとりでジェイルブレークを達成できるほど効果的だという。既存の対策ではこの手口の検出が難しいとされている。

Crescendo

 Deceptive Delightもマルチターン攻撃の一種だ。全体的にポジティブな会話の流れの中に、有害なトピックを無害な話題と組み合わせて埋め込み、防御ルールを回避する。

 例えば、攻撃者はLLMに「ウサギ」「ランサムウェア」「ふわふわの雲」という3つの要素を組み合わせたストーリーを作成させる。まず無害なトピックについて会話を進めながら、それぞれのトピックを詳しく説明させることで、有害なコンテンツの生成へと誘導する。最終的に、有害なトピックに焦点を当て、その詳細な出力を引き出すように促す。


 次回は、LLMのリスクについて企業がどのような対策を講じるべきかを考察する。

Computer Weekly発 世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news165.png

マーケター500人に聞いた「SEOの最新トレンド」 内部施策と外部施策それぞれの注力ポイントは?
企業は内部施策と外部施策をどのように組み合わせて効果的なSEO戦略を展開しているのか。

news157.jpg

生成AIを活用するとマーケティングリサーチはどう変わる?
GMOプレイアドは、オンラインリサーチサービス「Depth X byGMO」の提供を開始した。

news084.jpg

「AI専任部門は不要」 コカ・コーラが生成AIを真っ先に使ってみて学んだこと
飲料業界の巨人は話題の技術をどのように活用してきたのか。The Coca-Cola Companyの生成...