Meta(旧Facebook)の最悪な障害はなぜ起きた? 悲惨な連鎖的エラーの裏側甚大なソーシャルメディア障害【前編】

Meta(旧Facebook)ほどの大規模サービスを提供する会社であっても、凡ミスから深刻な障害を引き起こすことがある。同社は何を間違ったのか。

2021年12月21日 05時00分 公開
[Alissa IreiTechTarget]

 Meta(旧Facebook社)のサービスで2021年10月4日(現地時間)に発生した大規模障害は、同社にとって過去最悪の部類に入るものだった。「Facebook」や「Messenger」「Instagram」「WhatsApp」などのサービスがインターネットから消え、アクセスできない状態が約6時間にわたって続いた。

2021年10月のMetaの障害はどのようにして起こったのか?

 発生当初は、通信プロトコルの「BGP」(Border Gateway Protocol)が原因として疑われた。Twitterでさまざまな臆測が飛び交い、「障害の原因はBGPエラーではないか」という見方が出ていた。

 だがMetaによると、障害の原因は人的ミスだった。Metaの従業員は何を間違えてしまったのか。

 Metaのエンジニアリングおよびインフラ担当バイスプレジデントを務めるサントーシュ・ジャナーダン氏によると、原因は単純な間違いだった。あるエンジニアが、バックボーンネットワークの定期メンテナンス中に間違ったコマンドを入力し、それが一連の技術的問題を引き起こした。ジャナーダン氏は「社内監査ツールが構成ミスを防ぐはずだったが、そのソフトウェアにバグがあり制御が利かなかった」と説明する。この結果、間違ったコマンドがバックボーンルーターに流れ、ネットワークの接続が途切れた。

 さらにその間違いがDNS(名前解決)とBGPの二次的な問題につながった。MetaのDNSサーバが同社データセンターと通信できなくなったことから、BGPのルートアドバタイズメント(ルーターに経路情報を伝える機能)が自動的に無効になった。こうしてDNSサーバがインターネットから消え、FacebookやInstagram、WhatsAppは存在しないも同然になった。

 事態を一層悪化させたのは、Metaの社内業務ツールが障害のあったネットワークに依存して機能していたことだ。そのため従業員は、業務で普段使用している社内システムにアクセスできなくなった。結果として、障害の調査や解決を担うネットワークエンジニアも通常の方法ではリモートでの作業ができず、深刻な事態に陥った。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news067.jpg

「単なるスポーツ広告ではない」 Nikeの27年ぶりスーパーボウルCMは何がすごかった?
Nikeが27年ぶりにスーパーボウルCMに復帰し、注目を集めた。

news082.png

Z世代と上の世代で利用率の差が大きいSNSトップ3 1位「TikTok」、2位「Instagram」、3位は?
サイバーエージェント次世代生活研究所が実施した「2024年Z世代SNS利用率調査」の結果が...

news187.jpg

主戦場は「テレビ画面」へ YouTube20周年でCEOが公開書簡
20周年を迎えるYouTubeが、クリエイターとユーザーの双方にとってより魅力的で革新的なプ...