7万台のサーバを守った男が説く、AIインフラ防衛の「3つの技術」：元Cloudflareセキュリティ責任者が解説

AIモデルを意図的にだまして誤作動や情報漏えいを引き起こす巧妙なサイバー攻撃が後を絶たない。7万台のサーバを管理してきたインフラセキュリティの専門家が提唱する、AIインフラを防衛する3つの手法とは。

≫ 2026年05月01日 05時00分公開

[TechTargetジャパン]

AIを操ろうとする攻撃者にどう立ち向かう？

併せて読みたいお薦め記事

AIツールのリスクから身を守る

　本稿は、技術カンファレンス「SREcon25 Europe/Middle East/Africa」におけるセッション「Securing AI at Scale: Practical Defenses and Operational Blueprints」の講演内容を基に構成している。チャモロ氏は2026年4月現在、AIクラウドサービスベンダーTogether Computer（Together AIの名称で事業展開）でセキュリティ部門の責任者を務めている。

　チャモロ氏が1つ目の対策として挙げたのが、プロンプトインジェクションへの防御だ。攻撃者は言い換えや隠語などの手法を用いて、あらかじめ設定された禁止語のフィルターを容易にすり抜ける。実際に、社内チャットツールとして利用していた「Slack」のAI機能に細工を施したメッセージを読み込ませることで、非公開のシステム連携用キーを外部に送信させるといった事例も発生している。

　これに対抗する手段として、チャモロ氏が推奨するのが「意味的フィルタリング」だ。エンドユーザーからの入力文を数値の並びに変換し、既知の攻撃パターンとの意味的な類似度を計算する。表面上の単語が異なっていても、隠された悪意の意図を検出してブロックできる。この処理は既存のシステムインフラに組み込みやすく、費用対効果に優れるという利点がある。信頼できないデータを扱う処理は、システム本体から隔離されたサンドボックス内で実行させることで、万が一の被害を限定的なものに抑えることが可能だ。

　2つ目の対策は、敵対的攻撃への耐性を高めるAIモデルの訓練手法だ。自動運転車の画像認識において、一時停止の標識に特殊な模様のステッカーを貼るだけで、システムに速度制限の標識だと誤認させるといった攻撃がこれに該当する。

　このような攻撃を防ぐには、AIモデル自身に攻撃のパターンを学習させ、耐性を獲得させる必要がある。具体的には、AIモデルが最も間違いを犯しやすい方向へ一気にデータを改変する手法「FGSM」（Fast Gradient Sign Method）や、少しずつ反復的に改変を加える手法「PGD」（Projected Gradient Descent）を用いて、意図的にノイズを加えたデータを生成する。これらを正常なデータとともにAIモデルに学習させることで、AIモデルの判断基準が強化される。

　入力されたデータからノイズを段階的に取り除く手法「LoRID」（Low-Rank Iterative Diffusion）も紹介された。AIモデル自体の再学習を必要とせず、処理の過程でデータを浄化することで、AIモデルの応答精度を保つ仕組みだ。入力データに無作為なノイズを加えた複数のパターンを生成して、それぞれをAIモデルに判定させ、多数決で最終結果を決めることで攻撃の影響を薄める手法も有効だという。

　3つ目の対策は、モデルポイズニングを防ぐデータ保護の仕組みだ。AIモデルが参照する社内文書などのデータに悪意のある情報を意図的に混入させる脅威に対し、データの正当性を確保するアプローチだ。

　これを防ぐインフラとなるのが、データの変換過程ごとに値を記録するデータ来歴の追跡だ。不正な改ざんを即座に検出し、原因箇所の特定を容易にする。データを1カ所に集めずに分散システムのまま異常を検出する「連合学習」の仕組みや、不正なアクセスがあった際にアラートを発するおとり用のデータ（カナリアトークン）をシステム内に潜ませる手法も、重要なデータを保護する手段として機能する。

　これらの技術的対策を講じるだけではなく、開発や運用のプロセスにセキュリティを組み込むことが不可欠だ。チャモロ氏は、継続的なテストの仕組みやCI/CD（継続的インテグレーション／継続的デリバリー）パイプラインにセキュリティの検査工程を連携させ、自動的な対処体制を築くべきだと指摘する。発生した事象の頻度や対処にかかった時間などを定量的に測定し、改善につなげることが求められる。攻撃者の手法が日々進化する中、企業はAI技術の安全性と利便性のバランスを考慮しながら、実効性のある防衛策を継続的に見直す必要がある。

本稿は、USENIXが2025年11月12日に公開した動画「SREcon25 Europe/Middle East/Africa - Securing AI at Scale: Practical Defenses against Prompt...」を基に作成しました。