LLMの安全対策を回避し、有害な出力を生成させる技法が「ジェイルブレーク」だ。具体的にどのような手口を用いるのか。代表的な手法を3つ解説する。
2025年1月末、中国発の生成AI「DeepSeek」が突如として登場し、大きな話題を呼んだ。その発表から数日後、セキュリティ企業Palo Alto Networksは、同モデルから有害な出力を引き出すことに成功したと発表した。その過程では「ジェイルブレーク」(脱獄)という手法が用いられたという。一体どのような手法なのか。
ジェイルブレークとは、大規模言語モデル(LLM)のセーフガード(安全対策)を回避し、本来生成すべきでない偏った内容や有害な出力を引き出すために、特定のプロンプトを巧妙に設計したり、脆弱性を悪用したりする手法を指す。攻撃者はこの手法でLLMを「武器化」し、偽情報の拡散、犯罪行為の助長、攻撃的なコンテンツの生成を可能にしてしまう。
Palo Alto Networksは、DeepSeekに対して以下3種類のジェイルブレーク技法をテストした。
顧客満足度調査で使用される「リッカート尺度」でLLMの回答の有害度を評価し、LLMの操作を試みる手口。リッカート尺度では、特定の主張に対する同意・不同意の度合いを1~5の数値で測る。通常、1が「強く同意」、5が「強く不同意」を意味する。「この発言はどれくらい有害か」のように聞くと、LLMは本来ブロックするべき有害な回答を評価のための例として生成してしまうことがある。
Crescendoは、特定のトピックに関するLLMの知識を活用し、段階的に制限を突破するマルチターン攻撃の一種だ。攻撃者は関連するコンテンツを徐々に提示しながら指示を出し、最終的にモデルの安全機構を回避して禁止されたトピックへと誘導する。
巧妙な質問のスキルがあれば、わずか5回のやりとりでジェイルブレークを達成できるほど効果的だという。既存の対策ではこの手口の検出が難しいとされている。
Deceptive Delightもマルチターン攻撃の一種だ。全体的にポジティブな会話の流れの中に、有害なトピックを無害な話題と組み合わせて埋め込み、防御ルールを回避する。
例えば、攻撃者はLLMに「ウサギ」「ランサムウェア」「ふわふわの雲」という3つの要素を組み合わせたストーリーを作成させる。まず無害なトピックについて会話を進めながら、それぞれのトピックを詳しく説明させることで、有害なコンテンツの生成へと誘導する。最終的に、有害なトピックに焦点を当て、その詳細な出力を引き出すように促す。
次回は、LLMのリスクについて企業がどのような対策を講じるべきかを考察する。
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
AI活用に必要なデータだが、日々生成されるデータの量が急増し、あらゆる場所に分散する今、複雑なクラウド環境でそれらのデータをどのように管理すべきかに悩む企業は多い。この問題を解消する、インテリジェントなデータ管理の方法とは?
生成AIのビジネス活用が拡大している。しかし、多くの組織がランニングコストの高さやハードウェア要件の厳しさ、専門人材の不足といった要因により生成AIの価値を十分に引き出せていない。本資料では、この状況を脱却する方法を解説する。
ビジネスシーンでの活用が進むAIだが、その急速な進化に、多くの組織がキャッチアップできていないのが現状だ。AI導入の成果を最大化するために、何から始めるべきか、どのようなポイントを押さえるべきかを解説する。
AI活用を小規模なパイロットプロジェクトから始める企業は多いが、それを成功させ本格的な活用につなげるには、戦略的なアプローチが必要となる。初めてのAIユースケースを軌道に乗せるために知っておきたい、6つのステップを解説する。
予測の精度と信頼性の向上、ワークロードの高速化といった、AIのメリットを引き出すには、まずデータを「AI対応」にする必要がある。それを実現するために押さえておきたい、データ作成や管理のポイントを解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。