1. TechTarget鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ク鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�」鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ闕オ證ヲ�ソ�ス�ス�ス�ス�ス�ス�ス�ス�サ�ス�ス�ス�ス�ス�ス�ス�」�ス�ス�ス�ス鬮ョ諛カ�ス�」�ス�ス�ス�ス�ス�ス�ス�ヲ
  2. 鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ィ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ウ鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ソ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�シ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ隲��ケ�ス�ク隶厄スク�ス�ス�ス�ケ�ス�ス�ス�イ�ス�ス�ス�ス髣包スウ�ス�サ�ス�ス�ス�ク�ス�ス�ス�キ�ス�ス�ス�ス�ス�ス�ス�ケ�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�、鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�コAI
  3. 生成AIの「言ってはいけない」を引き出す“脱獄” その代表的な手法3選

生成AIの「言ってはいけない」を引き出す“脱獄” その代表的な手法3選LLMのリスク管理を考える【中編】

LLMの安全対策を回避し、有害な出力を生成させる技法が「ジェイルブレーク」だ。具体的にどのような手口を用いるのか。代表的な手法を3つ解説する。

2025年03月12日 07時00分 公開
[Alex ScroxtonTechTarget]

関連キーワード

人工知能


 2025年1月末、中国発の生成AI「DeepSeek」が突如として登場し、大きな話題を呼んだ。その発表から数日後、セキュリティ企業Palo Alto Networksは、同モデルから有害な出力を引き出すことに成功したと発表した。その過程では「ジェイルブレーク」(脱獄)という手法が用いられたという。一体どのような手法なのか。

生成AIの「言ってはいけない」を引き出す“脱獄”手法3選

 ジェイルブレークとは、大規模言語モデル(LLM)のセーフガード(安全対策)を回避し、本来生成すべきでない偏った内容や有害な出力を引き出すために、特定のプロンプトを巧妙に設計したり、脆弱性を悪用したりする手法を指す。攻撃者はこの手法でLLMを「武器化」し、偽情報の拡散、犯罪行為の助長、攻撃的なコンテンツの生成を可能にしてしまう。

 Palo Alto Networksは、DeepSeekに対して以下3種類のジェイルブレーク技法をテストした。

Bad Likert Judge

 顧客満足度調査で使用される「リッカート尺度」でLLMの回答の有害度を評価し、LLMの操作を試みる手口。リッカート尺度では、特定の主張に対する同意・不同意の度合いを1~5の数値で測る。通常、1が「強く同意」、5が「強く不同意」を意味する。「この発言はどれくらい有害か」のように聞くと、LLMは本来ブロックするべき有害な回答を評価のための例として生成してしまうことがある。

Crescendo

 Crescendoは、特定のトピックに関するLLMの知識を活用し、段階的に制限を突破するマルチターン攻撃の一種だ。攻撃者は関連するコンテンツを徐々に提示しながら指示を出し、最終的にモデルの安全機構を回避して禁止されたトピックへと誘導する。

 巧妙な質問のスキルがあれば、わずか5回のやりとりでジェイルブレークを達成できるほど効果的だという。既存の対策ではこの手口の検出が難しいとされている。

Deceptive Delight

 Deceptive Delightもマルチターン攻撃の一種だ。全体的にポジティブな会話の流れの中に、有害なトピックを無害な話題と組み合わせて埋め込み、防御ルールを回避する。

 例えば、攻撃者はLLMに「ウサギ」「ランサムウェア」「ふわふわの雲」という3つの要素を組み合わせたストーリーを作成させる。まず無害なトピックについて会話を進めながら、それぞれのトピックを詳しく説明させることで、有害なコンテンツの生成へと誘導する。最終的に、有害なトピックに焦点を当て、その詳細な出力を引き出すように促す。


 次回は、LLMのリスクについて企業がどのような対策を講じるべきかを考察する。

Computer Weekly発 世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

鬯ッ�ョ�ス�ォ�ス�ス�ス�エ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ー鬯ッ�ッ�ス�ィ�ス�ス�ス�セ�ス�ス�ス�ス�ス�ス�ス�ケ�ス�ス�ス�ス驍オ�コ�ス�、�ス縺、ツ€鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ陷ソ髢€�セ證ヲ�ソ�ス�ス�ス�ス�ス�ス�ク鬮ッ�キ�ス�エ�ス�ス�ス�・�ス�ス�ス�ス�ス�ス�ス�。鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�、鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ闕ウ�サ�ス�ス髫カ謐コ�サ繧托スス�ソ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�シ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ闕オ證ヲ�ソ�ス�ス�ス�ス�ス�ス�ス�ス�サ�ス�ス�ス�ス�ス�ス�ス�」�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス

製品資料 日本ヒューレット・パッカード合同会社

AI活用を成功させるカギ、「インテリジェントなデータ管理」の実現方法とは?

AI活用に必要なデータだが、日々生成されるデータの量が急増し、あらゆる場所に分散する今、複雑なクラウド環境でそれらのデータをどのように管理すべきかに悩む企業は多い。この問題を解消する、インテリジェントなデータ管理の方法とは?

製品資料 レッドハット株式会社

コストや人材不足の問題を解消、生成AIの価値を最大化するためのアプローチ

生成AIのビジネス活用が拡大している。しかし、多くの組織がランニングコストの高さやハードウェア要件の厳しさ、専門人材の不足といった要因により生成AIの価値を十分に引き出せていない。本資料では、この状況を脱却する方法を解説する。

製品資料 レッドハット株式会社

ビジネスの現場へのAI導入と活用、何から始めてどのように進めるべきか?

ビジネスシーンでの活用が進むAIだが、その急速な進化に、多くの組織がキャッチアップできていないのが現状だ。AI導入の成果を最大化するために、何から始めるべきか、どのようなポイントを押さえるべきかを解説する。

製品資料 日本ヒューレット・パッカード合同会社

初めてのAIユースケースを軌道に乗せる、6ステップで進める戦略的アプローチ

AI活用を小規模なパイロットプロジェクトから始める企業は多いが、それを成功させ本格的な活用につなげるには、戦略的なアプローチが必要となる。初めてのAIユースケースを軌道に乗せるために知っておきたい、6つのステップを解説する。

製品資料 日本ヒューレット・パッカード合同会社

自社のデータをAI対応に、ハイブリッドクラウドでのデータ作成/管理の最適解は

予測の精度と信頼性の向上、ワークロードの高速化といった、AIのメリットを引き出すには、まずデータを「AI対応」にする必要がある。それを実現するために押さえておきたい、データ作成や管理のポイントを解説する。

驛「譎冗函�趣スヲ驛「謨鳴€驛「譎「�ス�シ驛「�ァ�ス�ウ驛「譎「�ス�ウ驛「譎「�ソ�ス�趣スヲ驛「譎「�ソ�スPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

生成AIの「言ってはいけない」を引き出す“脱獄” その代表的な手法3選:LLMのリスク管理を考える【中編】 - TechTargetジャパン エンタープライズAI 隴�スー騾ケツ€髫ェ蛟�スコ�ス

鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ陷ソ髢€�セ證ヲ�ソ�ス�ス�ス�ス�ス�ス�ク鬮ッ�キ�ス�エ�ス�ス�ス�・�ス�ス�ス�ス�ス�ス�ス�。鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�、鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ闕ウ�サ�ス�ス髫カ謐コ�サ繧托スス�ソ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�シ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ闕オ證ヲ�ソ�ス�ス�ス�ス�ス�ス�ス�ス�サ�ス�ス�ス�ス�ス�ス�ス�」�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ゥ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ウ鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ュ鬯ッ�ゥ陝キ�「�ス�ス�ス�「鬮ォ�エ髮懶ス」�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ウ鬯ッ�ゥ陝キ�「�ス�ス�ス�「�ス�ス�ス�ス�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ー

2025/05/15 UPDATE

ITmedia マーケティング新着記事

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。