精度はわずか14％？　インシデント調査でAIが“迷子”になる理由と改善策：“期待外れ”のAI障害対処

AIツールによる障害への対処に期待が高まる一方、検証では原因特定の精度は低いという結果が出た。この課題に対し、IBM Researchが開発したオープンソース評価ツールと、特定精度を95％に改善した手法を解説する。

≫ 2026年05月20日 05時00分公開

[TechTargetジャパン]

精度を14％から95％に改善した「制約」

併せて読みたいお薦め記事

インシデント対処にAIツールを活用する

　2026年3月に開催されたテクノロジーカンファレンス「SREcon26 Americas」のセッション「From Chaos to Confidence: How SREs Can Leverage 50 (and Counting) Failure...」には、このプロジェクトを担当したIBM Researchのローハン・アローラ氏らが登壇した。セッション内で彼らはAIモデルの能力を科学的かつ定量的に評価するためのオープンソースの検証システムであるITBenchを開発し、その成果を発表した。

　ITBenchはコンテナオーケストレーションツール「Kubernetes」で稼働し、「Apache 2.0」ライセンスの下、ソースコードリポジトリ「GitHub」で公開されている。ITBench内には、マイクロサービスで構成されたテスト用アプリケーションや、標準的なオブザーバビリティツール群があらかじめ用意される。評価の仕組みとしては、自動化ツール「Ansible」を利用して、不具合のあるソフトウェアを配置するなどの障害を注入し、その障害をAIエージェントがいかに迅速かつ正確に診断、緩和できるかを測定する。

　評価に当たっては、AIモデルの評価で一般的に用いられる「Pass at K」（K回の試行内に正解を含められたかどうか）や、IT運用の標準指標である「Mean Time to Resolution」（MTTR：平均復旧時間）を採用した。

　独自の指標として、「Mean Time to WTF」という概念が導入された。これは、AIモデルが的外れな提案や行動を取り、人間のサイト信頼性エンジニアを困惑させるまでの時間を示すものだ。AIツールの導入によってかえって現場の作業負担が増加してしまっては本末転倒であるため、運用担当者にとっての真の有用性が厳しく問われているのだ。

　初期の実験では、LLM自身にデータ収集から分析、解決策の立案までを全て任せるアーキテクチャが採用されたが、前述の通り原因特定の成功率は約14％、問題解決に至る割合は約11％にとどまった。分析の結果、LLMは巨大で複雑なKubernetesシステムで迷子になり、不要な情報収集を繰り返して幻覚（ハルシネーション）を引き起こしていることが分かった。

　そこで研究チームは、アプリケーションのトポロジー情報を用いて、LLMが探索できる範囲を意図的に制限する手法を考案した。アラートが発生したサービスの周辺にのみ範囲を絞り、あらかじめ定義された固定の手順に基づいてLLMに状況を共有することで、LLMが各種ツールを操作して原因を探る負担や生データを解析する負荷を軽減したのだ。結果として、この制約を与えられたAIエージェントは、3回の試行で原因を特定する割合（Pass at 3）において約95％という劇的な精度向上を達成した。

AIエージェント育成に向けたコミュニティーの拡大

　ITBenchは、過去のインシデントレポートを読み込ませることで、LLMを活用して自動的に障害シナリオを評価システム内に構築する機能も備えている。これによって、人間が手作業でコードを書かなくても評価用のテストケースを容易に拡充できる。

　ITBenchが対象とするのはSRE（サイト信頼性エンジニアリング）領域だけではない。過去には、悪意のある攻撃者がGPU搭載の仮想マシンを不正に立ち上げて暗号資産のマイニングを行った事例が存在する。この異常にいち早く気付いたのはSREではなく、クラウド費用の急増を検知したFinOps（クラウド費用最適化）の担当者であったという。このように、ITBenchはセキュリティやFinOpsといった周辺領域のインシデント評価にも応用できる高い適応力を持っている。

　発表時点でITBenchに実装されている障害パターンは、現実のシステム運用で想定されるトラブルの約15％をカバーしているに過ぎないという。「真に信頼できるAIアシスタント」を育てるため、開発チームはIT担当者に対し、日々の運用やCI/CDパイプラインで遭遇したインシデント事例をベンチマークに追加するよう呼び掛けている。

本稿は、USENIXが2026年4月24日に公開した動画「SREcon26 Americas - From Chaos to Confidence: How SREs Can Leverage 50 (and Counting) Failure...」を基に作成しました。