Meta（旧Facebook社）の障害に興味をそそられたエンジニアが反省すべきこと：甚大なソーシャルメディア障害【中編】

単純なミスが連鎖的エラーを引き起こして重大な事態を招いたMeta（旧Facebook）の大規模障害。実は他の企業も“ひとごと”とは言えない事情が背景にある。

≫ 2021年12月28日 05時00分公開

併せて読みたいお薦め記事

その他のシステム障害事例

　「Facebook」「Instagram」「WhatsApp」などの著名なサービスを手掛けるMetaが、なぜシンプルな間違いを犯してしまったのか。背景には、他の企業もひとごとではない事情がある。

凡ミスが招いた一連のトラブル　何が抜け落ちていたのか？

　障害が発生したとき、Metaのエンジニアは復旧のためにデータセンターに入り、手動でルーターとサーバのデバッグ（不具合の修正）をしなければならなかった。だがそのとき、従業員であってもMetaの施設に入ることが簡単ではなかった。データセンターへの入室を管理するシステムが停止していたからだ。通常でも、Metaのデータセンターとそこにあるネットワーク機器は厳重に保護されている。障害発生による混乱もあり、適切な担当者を現場に入らせるのに時間がかかった。

　そもそもこのMetaの障害は前編「Meta（旧Facebook）の最悪な障害はなぜ起きた？　悲惨な連鎖的エラーの裏側」で紹介した通り、間違ったコマンドを入力するという人的ミスが一連の障害を引き起こしたものだ。企業はこの事例から教訓として何を学べばいいのだろうか。

　ラーナー氏はこうした連鎖的な大規模障害を心配する前に、まずネットワークの安定稼働のための基本的な対策を確実に実施しなければならないと警告する。「率直に言って、ほとんどの企業は基本ができていない」（ラーナー氏）

　企業は基本的な作業として以下の点を徹底すべきだ。

ネットワーク機器の構成を追跡し、構成管理用のデータベースに反映する
構成のロールバック（正常な状態に戻すこと）計画を立てる
ネットワーク変更時の検証を自動化する
ネットワークテストを頻繁に実行する

　こうした基本を押さえているのであれば、メディアをにぎわせる大規模障害の事例から学べることもあるだろうとラーナー氏は語る。

TechTarget発　先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

TechTargetジャパントップネットワーク