Anthropicの「Mythos」はどこがすごいのか Cloudflareが震えた検証結果
Cloudflareは、Anthropicのセキュリティ特化型AIモデル「Claude Mythos Preview」を用いた検証結果を公開した。複数の脆弱性を組み合わせて攻撃手法を構築し、実証コードまで自動生成する能力は、従来の自動スキャナをはるかに超え「シニア研究者」の域に達している。
「脆弱(ぜいじゃく)性の管理は、終わりのないもぐらたたきだ」――。そんな情シスの嘆きが、AIによって劇的に変わるかもしれない。しかし、それは防御側だけでなく、攻撃側にとっても同じだ。
Cloudflareは、Anthropicが開発したセキュリティ特化型AIモデル「Claude Mythos Preview」を用いた実証実験の結果を公表した。50以上のリポジトリを対象に行った検証で、AIは単なる自動スキャナの域を超え、複数の脆弱性を組み合わせて致命的な攻撃手法を自ら編み出す「シニア研究者」のような振る舞いを見せたという。
この記事では、一般にはほとんど知られていないMythosの能力がどういったものか、Cloudflareの検証結果から示すとともに、同社が直面した「精度とノイズ」の課題と、それを解決するために構築した独自の運用手法、そしてAI時代のセキュリティ担当者が取るべき「パッチ当てに依存しない防御戦略」の核心を解説する。
「シニア研究者」並みの攻撃能力を持つAI
「Mythosとサイバーセキュリティ」に関連する編集部お薦め記事
Cloudflareが検証した「Claude Mythos Preview」は、Anthropicが開発したAIモデルで、サイバー攻撃への悪用リスクが極めて高いと判断されているため、一般向けの提供やAPI公開は予定されていない「未公開の汎用フロンティアモデル」。現在は、業界横断のセキュリティイニシアチブ「Project Glasswing」を通じて一部の企業や団体に提供されている。日本では先日、三菱UFJ銀行、みずほ銀行、三井住友銀行の3メガバンクがMythosへのアクセス権を取得したことが報じられた。
Cloudflareの最高セキュリティ責任者(CSO)、グラント・ブルジカス氏の署名で掲載されたブログによると、「Claude Mythos Preview」は従来の汎用(はんよう)的なLLMとは一線を画す能力を示したという。特に顕著だったとしているのが「攻撃チェーン(Exploit Chain)の構築」と「実証コード(PoC)の生成」の2点だ。
実際の攻撃では、1つのバグだけでシステムが乗っ取られることはまれで、複数の軽微なバグを連鎖させることで致命的な攻撃を成立させる。Claude Mythos Previewは、システム内の複数の「攻撃プリミティブ(基本要素)」を特定し、それらをどう組み合わせれば有効な攻撃が成立するかを推論する能力を備えていた。この推論プロセスは、自動スキャナの出力というより、熟練したセキュリティ研究者の思考に近いものだったという。
さらに、このAIはバグの発見にとどまらず、それが実際に悪用可能であることを証明するコード(PoC)を自ら記述し、サンドボックス環境でコンパイル・実行して動作を確認する。もし失敗すれば、エラーを読み取って仮説を修正し、再試行する。この「思考と試行のループ」によって、単なる推測ではない「実証済みの脆弱性」を自律的に報告できる点が、これまでのモデルとの決定的な違いだとしている。
「リポジトリを投げ込むだけ」では失敗する理由
Cloudflareは検証を通じて、汎用的なコーディングエージェントにリポジトリを読み込ませるだけの安易な手法には限界があることも突き止めた。
大きな要因の1つが、AIの「コンテキスト(文脈)保持能力」の限界だ。一般的なコーディングエージェントは、1つの機能の実装やバグ修正には向いているが、広大なコードベース全体から脆弱性を探す「並列的かつ徹底的な調査」には適していない。10万行を超えるようなリポジトリでは、調査が進むにつれてコンテキストウィンドウがいっぱいになり、初期の重要な発見が上書きされてしまう。
また、プログラミング言語によって「ノイズ」の発生率が大きく異なることも判明したという。メモリ管理を直接行うCやC++で書かれたプロジェクトでは、Rustのようなメモリ安全言語に比べて一貫して偽陽性(誤検知)が多く発生した。さらに、AI特有の「何かを見つけなければならない」というバイアスにより、「理論上は可能」といったあいまいな報告が大量に生成される課題も浮き彫りになったという。
精度を劇的に向上させる「ハーネス(制御基盤)」の構築
Cloudflareは、AIの出力をそのまま受け取るのではなく、AIの強みを引き出し、弱点を補完するための「ハーネス(制御基盤)」を構築した。この基盤を通じて得られた4つの教訓は、実務的に極めて示唆に富んでいる。
- スコープを狭める:「リポジトリから脆弱性を探せ」と指示するのではなく、「この特定の関数のコマンドインジェクションを探せ」と、アーキテクチャ図などの背景情報とともに与える方が、はるかに高い精度が得られた
- 敵対的レビューの導入:1つのAIが生成した発見を、別のプロンプトやモデルを持つ「レビュー専用AI」に検証させる。AI同士を意図的に対立させることで、単一のAIに「注意深くチェックしろ」と命じるよりもノイズを削減できた
- 推論の分離:「このコードにバグはあるか」と「そのバグに外部から到達できるか」という問いを分けることで、推論の質が向上した
- 並列化と重複排除:1つの万能なエージェントに全てを任せるのではなく、狭い範囲を担当する多数のエージェントを走らせ、後で結果を統合する手法が最も網羅性を高めた
「パッチ当て」の速さだけでは勝てない
AIによって攻撃の構築速度が加速する中、多くのセキュリティチームは「CVE公開から数時間以内にパッチを当てる」という速度競争に陥っている。しかし、Cloudflareはこの現状に警鐘を鳴らす。
十分なテストを省いてパッチを強行すれば、修正したバグよりも深刻なシステム障害を引き起こすリスクがある。Cloudflare自身、AIにパッチを書かせた実験で、元のバグは直っても別の依存箇所を壊してしまう事例を確認したという。
情シスが今検討すべきは、速度の追求だけでなく、脆弱性がある前提での「アーキテクチャによる防御」だ。具体的には、WAF(Webアプリケーションファイアウォール)などの前段で攻撃を遮断する仕組みの導入や、コードの一カ所の欠陥がシステム全体に波及しないための隔離設計の徹底が求められる。
攻撃側も同じAIを手に入れる未来で、個別のパッチ当てという「点」の対応から、攻撃を成立させない構造という「面」の対応へ、防御のパラダイムシフトが急務となっている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「パッチのビッグウェーブがやってくる」 AI悪用で崩壊する脆弱性管理の常識
高性能AIの登場により、脆弱性発見のスピードが劇的に加速している。英NCSCは、蓄積された「技術的負債」がAIによって一気に暴かれ、かつてないパッチ適用サイクルが到来すると警告。情シス部門が考えるべきことは?
27年前のバグをAIが暴いた日 「Claude Mythos」が起こすサイバー防衛の地殻変動
AIはサイバー攻撃を劇的に加速させる一方で、防御側にとっても革命的な武器となる。Anthropicの「Claude Mythos」が27年前のバグを瞬時に発見したように、人間をしのぐ速度の脅威が現実となった今、従来の「禁止」や「点の対策」は通用しない。
Claude Mythosで激変するセキュリティの新ルール 勝敗を決めるのは「修復のスピード」
Anthropicが発表したAI「Claude Mythos」は、数千のゼロデイ脆弱性を自動で特定し攻撃手順まで生成する。一般公開が制限されるほどの破壊力を前に、情シスは「発見」より「修復」の速度を問われる時代に突入した。低リスクの欠陥を連鎖させ致命的な攻撃に変えるAIの脅威に、組織が取るべき生存戦略を解説する。
情シスを追い詰める「ガバナンスなきAI導入」の代償とは?
「AIなんて発明されなければよかった」――最新調査でCIOの半数が本音を漏らすほど、AI導入に伴うセキュリティリスクが深刻化している。Copilotが悪用され既存の脆弱性が自動攻撃の道具と化すなど、情シスは利便性の代償として肥大化する攻撃面とガバナンス不足という、かつてない難題に直面している。
AIで巧妙化するサイバー攻撃 情シスが向き合うべきAI時代の国家級リスク
英国はAIによる自動攻撃に対抗すべく「国家サイバーシールド」構築に乗り出す。人間が20年以上見逃した脆弱性をAIが即座に看破する現状に、既製品を導入するだけの対策はもはや通用しない。政府は企業に、セキュリティを経営の義務と位置付ける誓約を求めている。情シスが直面する、AI時代の新たな防衛線とは。
Claude Mythos Previewは誰が使える? "攻撃もできるAI"を巡る静かな争奪戦
Anthropicが公開した新型AI「Claude Mythos Preview」は、主要ソフトから数千件の高深刻度脆弱性を検出し、攻撃コードの生成も可能だという。誰が使えるのか。