Google Cloudの大規模障害で浮き彫りになった「隠れた単一障害点」とは?:クラウドサービスの複雑な相互依存関係
Googleで発生したAPIの誤設定が、世界中のサービスに障害を引き起こした。この障害は、ネットワークインフラの複雑な相互依存関係について重要な教訓を示していると専門家は指摘する。何が問題なのか。
2025年6月12日(米太平洋時間)に発生した、GoogleやCloudflareを含む複数の企業のサービスに影響があった大規模障害について、Googleは原因がAPI(アプリケーションプログラミングインタフェース)更新プログラムの不具合であると説明した。この障害は、ネットワークインフラの複雑な相互依存関係について重要な教訓を示していると専門家は指摘する。
Google CloudとCloudflareの大規模障害はなぜ起こったのか?
Googleによる暫定的なインシデント報告によると、問題の原因はAPI管理システムに対して無効な自動クォータ更新が行われたことで、外部からのAPIリクエストが失敗する結果となった。
Googleのクラウドサービス部門Google Cloudはステータスページで「このインシデントは発生すべきではなかった」と述べ、再発防止策として以下のことを実施すると発表した。
- 無効または破損したデータによってAPI管理プラットフォームが停止しないようにする。
- 適切な保護、テスト、監視なしにメタデータがグローバルに波及するのを防ぐ。
- 無効なデータ処理に関するシステムエラー処理とテスト体制を強化する。
Cloudflareは、以下を含む自社の多くのサービスが、Google Cloudの障害の影響で2時間以上ダウンしたことを発表した。
- WARP
- 無料VPN(仮想プライベートネットワーク)サービス
- SQLiteベースのDurable Objects
- リレーショナルデータベース管理システム(RDBMS)「SQLite」を基盤とした分散型データ処理基盤
- Workers KV
- エッジの低レイテンシKey-Valueストレージ
- Cloudflare Realtime
- リアルタイムの音声や動画体験を可能にする製品スイート
- Workers AI
- エッジのAIモデル実行環境
- Cloudflare Stream
- 動画配信プラットフォーム
- Cloudflare Waiting Room
- トラフィック急増時のユーザーのための仮想待機室
- AI Gateway
- AIアプリケーション監視ツール
- AutoRAG
- フルマネージドRAG(検索拡張生成)構築ツール
- 一部のCloudflareダッシュボード項目
「今回の障害はわれわれの責任だ。きっかけとなったのはサードパーティーのベンダーの障害だったとしても、依存関係とそれをどう設計に組み込むかについては、最終的な責任は当社にある」。Cloudflareはそう説明した。
Cloudflareは、Workers KVが多くの製品にとって重要な依存コンポーネントであり、これを支えるストレージサービスの問題が全体の障害につながったと説明した。障害中にWorkers KVでは90.22%のリクエストが失敗したという。
Cloudflareの最高技術責任者(CTO)を務めるデーン・クネヒト氏はXへの投稿で「当社のWorkers KVサービスが停止し、それに依存する下流の製品群も連鎖的に障害を起こした。近日中に詳細な事後分析レポートを公表する」と記している。
「このようなインシデントは、世界中の企業のチームが業務を行い、顧客にサービスを提供する上で深刻な影響を及ぼすことを理解している」と同氏は続けた。「今回のインシデントの詳細を超えて、事後分析レポートではこの障害ケースをどのように解消していくかについて詳細に説明する。今後同様の問題が発生しないよう全力を尽くすとともに、本日生じた問題について深くお詫び申し上げる」(クネヒト氏)
Cloudflareは2024年12月時点で、全Webトラフィックの約20%が自社のネットワークを通過し、Fortune 500(経済誌Fortuneが発表する企業の売上高ランキング)のうち35%が自社の顧客であると公表していた。
Google Cloudは、IT調査会社Synergy Research Groupの2025年2月のレポートによると、「Amazon Web Services」(AWS)と「Microsoft Azure」に次ぐ第3位のシェアで、クラウド市場シェアの12%を占めている。調査会社HG Insightsの2024年市場レポートによると、Google Cloudは約96万社の顧客基盤を持ち、その半分は北米に位置しているという。
併せて読みたいお薦め記事
Google Cloudについて知る
ネットワークインフラの複雑な相互依存関係と単一障害点
調査会社CapgeminiのAIおよびデータリーダーを務めるプラディープ・サニャル氏は、「このインシデントは、クラウド市場におけるさらなる多様化を促進する可能性がある」と指摘する。
「クラウド時代においては、技術的に最も先進的な企業でさえ、パフォーマンス、コスト、シンプルさを追求するあまり、単一のクラウドベンダーに依存しがちだ。しかし今回の障害が示すように、その利便性には重大なリスクが伴う。特にストレージやAPI管理のような基盤サービスが関わる場合にはなおさらだ」(サニャル氏)
サニャル氏によれば、今回の障害はネットワークインフラの複雑な相互依存関係について重要な教訓を示している。「Googleで発生した一つのAPIの誤設定が、Cloudflareや音楽配信サービス『Spotify』を含む無数のサービスに連鎖的な障害を引き起こしたことは、警鐘として受け止めるべきだ。特にCloudflareのWorkers KVストレージが単一障害点となっていた点は、注目に値する」
「こうした障害は、少なくとも短中期的には、大規模クラウドベンダー間での多様化の流れを促進させるだろう」とサニャル氏は述べる。「ただし、多様化にはコストと複雑性が伴う。ハイパースケーラー(大規模データセンターを運営する事業者)やその大口顧客にとっては、こうした問題が取締役会レベルで議論されるようになるだろう」
翻訳・編集協力:雨輝ITラボ(株式会社リーフレイン)
Copyright © ITmedia, Inc. All Rights Reserved.