7万台のサーバを守った男が説く、AIインフラ防衛の「3つの技術」:元Cloudflareセキュリティ責任者が解説
AIモデルを意図的にだまして誤作動や情報漏えいを引き起こす巧妙なサイバー攻撃が後を絶たない。7万台のサーバを管理してきたインフラセキュリティの専門家が提唱する、AIインフラを防衛する3つの手法とは。
企業が業務システムや顧客向けサービスにAI(人工知能)機能を組み込む中、従来のセキュリティ対策では防ぎきれない新たな脅威が課題になっている。悪意あるプロンプト(指示)を与えてAIツールの動作を操作する「プロンプトインジェクション」、入力データに微小なノイズを混ぜてAIモデルを誤認させる「敵対的攻撃」、学習データを汚染して意図しない挙動を引き起こす「モデルポイズニング」など、AI技術を標的にした攻撃手法はさまざまだ。こうした攻撃によって、機密情報の漏えいやサービスの品質低下を招く懸念が強まっている。
こうした脅威に対し、多層的な防御策の必要性を説くのがデレク・チャモロ氏だ。同氏は過去にCloudflareでインフラセキュリティの責任者を務め、7万台のサーバと500カ所のデータセンターを管理した実績を持つ。AI技術特有の巧妙な攻撃手法に対して、チャモロ氏はシステムの性能を維持しながら防衛するための実践的な技術と、それを企業に根付かせるための開発・運用プロセスを提示した。
企業は具体的にどのような仕組みを用いて自社のAIインフラを守るべきなのか。本稿は、チャモロ氏が推奨する3つの技術的な防御アプローチと運用指針を詳解する。
AIを操ろうとする攻撃者にどう立ち向かう?
併せて読みたいお薦め記事
AIツールのリスクから身を守る
本稿は、技術カンファレンス「SREcon25 Europe/Middle East/Africa」におけるセッション「Securing AI at Scale: Practical Defenses and Operational Blueprints」の講演内容を基に構成している。チャモロ氏は2026年4月現在、AIクラウドサービスベンダーTogether Computer(Together AIの名称で事業展開)でセキュリティ部門の責任者を務めている。
チャモロ氏が1つ目の対策として挙げたのが、プロンプトインジェクションへの防御だ。攻撃者は言い換えや隠語などの手法を用いて、あらかじめ設定された禁止語のフィルターを容易にすり抜ける。実際に、社内チャットツールとして利用していた「Slack」のAI機能に細工を施したメッセージを読み込ませることで、非公開のシステム連携用キーを外部に送信させるといった事例も発生している。
これに対抗する手段として、チャモロ氏が推奨するのが「意味的フィルタリング」だ。エンドユーザーからの入力文を数値の並びに変換し、既知の攻撃パターンとの意味的な類似度を計算する。表面上の単語が異なっていても、隠された悪意の意図を検出してブロックできる。この処理は既存のシステムインフラに組み込みやすく、費用対効果に優れるという利点がある。信頼できないデータを扱う処理は、システム本体から隔離されたサンドボックス内で実行させることで、万が一の被害を限定的なものに抑えることが可能だ。
2つ目の対策は、敵対的攻撃への耐性を高めるAIモデルの訓練手法だ。自動運転車の画像認識において、一時停止の標識に特殊な模様のステッカーを貼るだけで、システムに速度制限の標識だと誤認させるといった攻撃がこれに該当する。
このような攻撃を防ぐには、AIモデル自身に攻撃のパターンを学習させ、耐性を獲得させる必要がある。具体的には、AIモデルが最も間違いを犯しやすい方向へ一気にデータを改変する手法「FGSM」(Fast Gradient Sign Method)や、少しずつ反復的に改変を加える手法「PGD」(Projected Gradient Descent)を用いて、意図的にノイズを加えたデータを生成する。これらを正常なデータとともにAIモデルに学習させることで、AIモデルの判断基準が強化される。
入力されたデータからノイズを段階的に取り除く手法「LoRID」(Low-Rank Iterative Diffusion)も紹介された。AIモデル自体の再学習を必要とせず、処理の過程でデータを浄化することで、AIモデルの応答精度を保つ仕組みだ。入力データに無作為なノイズを加えた複数のパターンを生成して、それぞれをAIモデルに判定させ、多数決で最終結果を決めることで攻撃の影響を薄める手法も有効だという。
3つ目の対策は、モデルポイズニングを防ぐデータ保護の仕組みだ。AIモデルが参照する社内文書などのデータに悪意のある情報を意図的に混入させる脅威に対し、データの正当性を確保するアプローチだ。
これを防ぐインフラとなるのが、データの変換過程ごとに値を記録するデータ来歴の追跡だ。不正な改ざんを即座に検出し、原因箇所の特定を容易にする。データを1カ所に集めずに分散システムのまま異常を検出する「連合学習」の仕組みや、不正なアクセスがあった際にアラートを発するおとり用のデータ(カナリアトークン)をシステム内に潜ませる手法も、重要なデータを保護する手段として機能する。
これらの技術的対策を講じるだけではなく、開発や運用のプロセスにセキュリティを組み込むことが不可欠だ。チャモロ氏は、継続的なテストの仕組みやCI/CD(継続的インテグレーション/継続的デリバリー)パイプラインにセキュリティの検査工程を連携させ、自動的な対処体制を築くべきだと指摘する。発生した事象の頻度や対処にかかった時間などを定量的に測定し、改善につなげることが求められる。攻撃者の手法が日々進化する中、企業はAI技術の安全性と利便性のバランスを考慮しながら、実効性のある防衛策を継続的に見直す必要がある。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。