生成AIを狂わせる「データポイズニング」の意外なほど簡単な手口とは:生成AIユーザーが無視できないデータ汚染
生成AIツールの普及とともに、「生成AIツールを狙った攻撃」も広がりつつある。その一つがデータポイズニング攻撃だ。どのような手口なのか。
AI(人工知能)技術ベンダーOpenAIの「ChatGPT」に代表される「生成AI」(ジェネレーティブAI)ツールは、さまざまなメリットだけではなくセキュリティリスクをも組織にもたらしている。脅威となり得るのは、攻撃者が生成AIツールを攻撃の自動化に悪用することだけではない。「データポイズニング」も無視できない脅威の一つだ。どのような手口なのか。
「データポイズニング」の意外なほど簡単な手口とは
生成AIツールは自ら考えるのではなく、ユーザーが出したプロンプト(指示や質問)を基にアウトプットを生成する。そのアウトプットは、学習したデータを基にしている。
データポイズニング攻撃とは、簡単に言えば攻撃者が学習用のデータを操作し、機械学習モデルをだます手口を指す。例えば、不審なメールや危険な通信を判別するように機械学習モデルをトレーニングしている組織がある。データポイズニング攻撃によって、フィッシングメールやランサムウェア(身代金要求型マルウェア)を「検出しない」ように設定を変えられてしまう可能性がある。
攻撃者がデータポイズニング攻撃を仕掛けるには、学習用のデータにアクセスする必要がある。アクセス方法は、データセットが非公開か公開かによって変わる。
データセットが非公開の場合
社外に公開されていないデータセットにアクセスするには、システムに不正にアクセスする必要がある。その手口として、AIツールの脆弱(ぜいじゃく)性を悪用する場合がある。他には、悪意のある内部関係者が非公開データセットへのアクセス方法を攻撃者に知らせるというシナリオも考えられる。
特に注意が必要なのは、攻撃者が機械学習モデルの一部のみを操作するケースだ。この場合、AIツールはほぼ正常に機能するため、攻撃に気付きにくい。もしAIツールによる回答が明らかにおかしい内容だったら、データポイズニング攻撃だと疑った方がいい。
データセットが公開されている場合
学習用のデータセットが公開されている場合は、データポイズニング攻撃を実施するハードルが下がる。
例えば「Nightshade」というツールは、アーティストが自身の作品が生成AIの学習に無断で使われることを防ぐためのツールだ。このツールを使うと、人間の目には見えない変更をデータに加え、それを学習したAIモデルに予測不能なアウトプットを出力させることが可能になる。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.