Anthropicの「Mythos」はどこがすごいのか　Cloudflareが震えた検証結果

Cloudflareは、Anthropicのセキュリティ特化型AIモデル「Claude Mythos Preview」を用いた検証結果を公開した。複数の脆弱性を組み合わせて攻撃手法を構築し、実証コードまで自動生成する能力は、従来の自動スキャナをはるかに超え「シニア研究者」の域に達している。

[TechTargetジャパン] PC用表示関連情報

LINE

Hatena

　「脆弱（ぜいじゃく）性の管理は、終わりのないもぐらたたきだ」――。そんな情シスの嘆きが、AIによって劇的に変わるかもしれない。しかし、それは防御側だけでなく、攻撃側にとっても同じだ。

　Cloudflareは、Anthropicが開発したセキュリティ特化型AIモデル「Claude Mythos Preview」を用いた実証実験の結果を公表した。50以上のリポジトリを対象に行った検証で、AIは単なる自動スキャナの域を超え、複数の脆弱性を組み合わせて致命的な攻撃手法を自ら編み出す「シニア研究者」のような振る舞いを見せたという。

　この記事では、一般にはほとんど知られていないMythosの能力がどういったものか、Cloudflareの検証結果から示すとともに、同社が直面した「精度とノイズ」の課題と、それを解決するために構築した独自の運用手法、そしてAI時代のセキュリティ担当者が取るべき「パッチ当てに依存しない防御戦略」の核心を解説する。

「シニア研究者」並みの攻撃能力を持つAI

「Mythosとサイバーセキュリティ」に関連する編集部お薦め記事

　Cloudflareが検証した「Claude Mythos Preview」は、Anthropicが開発したAIモデルで、サイバー攻撃への悪用リスクが極めて高いと判断されているため、一般向けの提供やAPI公開は予定されていない「未公開の汎用フロンティアモデル」。現在は、業界横断のセキュリティイニシアチブ「Project Glasswing」を通じて一部の企業や団体に提供されている。日本では先日、三菱UFJ銀行、みずほ銀行、三井住友銀行の3メガバンクがMythosへのアクセス権を取得したことが報じられた。

　Cloudflareの最高セキュリティ責任者（CSO）、グラント・ブルジカス氏の署名で掲載されたブログによると、「Claude Mythos Preview」は従来の汎用（はんよう）的なLLMとは一線を画す能力を示したという。特に顕著だったとしているのが「攻撃チェーン（Exploit Chain）の構築」と「実証コード（PoC）の生成」の2点だ。

　実際の攻撃では、1つのバグだけでシステムが乗っ取られることはまれで、複数の軽微なバグを連鎖させることで致命的な攻撃を成立させる。Claude Mythos Previewは、システム内の複数の「攻撃プリミティブ（基本要素）」を特定し、それらをどう組み合わせれば有効な攻撃が成立するかを推論する能力を備えていた。この推論プロセスは、自動スキャナの出力というより、熟練したセキュリティ研究者の思考に近いものだったという。

　さらに、このAIはバグの発見にとどまらず、それが実際に悪用可能であることを証明するコード（PoC）を自ら記述し、サンドボックス環境でコンパイル・実行して動作を確認する。もし失敗すれば、エラーを読み取って仮説を修正し、再試行する。この「思考と試行のループ」によって、単なる推測ではない「実証済みの脆弱性」を自律的に報告できる点が、これまでのモデルとの決定的な違いだとしている。

「リポジトリを投げ込むだけ」では失敗する理由

　Cloudflareは検証を通じて、汎用的なコーディングエージェントにリポジトリを読み込ませるだけの安易な手法には限界があることも突き止めた。

　大きな要因の1つが、AIの「コンテキスト（文脈）保持能力」の限界だ。一般的なコーディングエージェントは、1つの機能の実装やバグ修正には向いているが、広大なコードベース全体から脆弱性を探す「並列的かつ徹底的な調査」には適していない。10万行を超えるようなリポジトリでは、調査が進むにつれてコンテキストウィンドウがいっぱいになり、初期の重要な発見が上書きされてしまう。

　また、プログラミング言語によって「ノイズ」の発生率が大きく異なることも判明したという。メモリ管理を直接行うCやC++で書かれたプロジェクトでは、Rustのようなメモリ安全言語に比べて一貫して偽陽性（誤検知）が多く発生した。さらに、AI特有の「何かを見つけなければならない」というバイアスにより、「理論上は可能」といったあいまいな報告が大量に生成される課題も浮き彫りになったという。

精度を劇的に向上させる「ハーネス（制御基盤）」の構築

　Cloudflareは、AIの出力をそのまま受け取るのではなく、AIの強みを引き出し、弱点を補完するための「ハーネス（制御基盤）」を構築した。この基盤を通じて得られた4つの教訓は、実務的に極めて示唆に富んでいる。

スコープを狭める：「リポジトリから脆弱性を探せ」と指示するのではなく、「この特定の関数のコマンドインジェクションを探せ」と、アーキテクチャ図などの背景情報とともに与える方が、はるかに高い精度が得られた
敵対的レビューの導入：1つのAIが生成した発見を、別のプロンプトやモデルを持つ「レビュー専用AI」に検証させる。AI同士を意図的に対立させることで、単一のAIに「注意深くチェックしろ」と命じるよりもノイズを削減できた
推論の分離：「このコードにバグはあるか」と「そのバグに外部から到達できるか」という問いを分けることで、推論の質が向上した
並列化と重複排除：1つの万能なエージェントに全てを任せるのではなく、狭い範囲を担当する多数のエージェントを走らせ、後で結果を統合する手法が最も網羅性を高めた

「パッチ当て」の速さだけでは勝てない

　AIによって攻撃の構築速度が加速する中、多くのセキュリティチームは「CVE公開から数時間以内にパッチを当てる」という速度競争に陥っている。しかし、Cloudflareはこの現状に警鐘を鳴らす。

　十分なテストを省いてパッチを強行すれば、修正したバグよりも深刻なシステム障害を引き起こすリスクがある。Cloudflare自身、AIにパッチを書かせた実験で、元のバグは直っても別の依存箇所を壊してしまう事例を確認したという。

　情シスが今検討すべきは、速度の追求だけでなく、脆弱性がある前提での「アーキテクチャによる防御」だ。具体的には、WAF（Webアプリケーションファイアウォール）などの前段で攻撃を遮断する仕組みの導入や、コードの一カ所の欠陥がシステム全体に波及しないための隔離設計の徹底が求められる。

　攻撃側も同じAIを手に入れる未来で、個別のパッチ当てという「点」の対応から、攻撃を成立させない構造という「面」の対応へ、防御のパラダイムシフトが急務となっている。

Anthropicの「Mythos」はどこがすごいのか　Cloudflareが震えた検証結果

「シニア研究者」並みの攻撃能力を持つAI

「Mythosとサイバーセキュリティ」に関連する編集部お薦め記事

「リポジトリを投げ込むだけ」では失敗する理由

精度を劇的に向上させる「ハーネス（制御基盤）」の構築

「パッチ当て」の速さだけでは勝てない

関連記事

関連リンク

Anthropicの「Mythos」はどこがすごいのか Cloudflareが震えた検証結果

「シニア研究者」並みの攻撃能力を持つAI

「Mythosとサイバーセキュリティ」に関連する編集部お薦め記事

「リポジトリを投げ込むだけ」では失敗する理由

精度を劇的に向上させる「ハーネス（制御基盤）」の構築

「パッチ当て」の速さだけでは勝てない

関連記事

関連リンク

Anthropicの「Mythos」はどこがすごいのか　Cloudflareが震えた検証結果