Meta(旧Facebook社)の障害に興味をそそられたエンジニアが反省すべきこと甚大なソーシャルメディア障害【中編】

単純なミスが連鎖的エラーを引き起こして重大な事態を招いたMeta(旧Facebook)の大規模障害。実は他の企業も“ひとごと”とは言えない事情が背景にある。

2021年12月28日 05時00分 公開
[Alissa IreiTechTarget]

 Meta(旧Facebook社)のサービスで2021年10月に発生した大規模障害は、エンジニアの単純なミスに起因するものだった。

 「この不運な出来事は、自分が座っている木の枝をのこぎりで切り落としたようなものだ」と、調査会社Gartnerのアナリストであるアンドルー・ラーナー氏は皮肉を込めて言う。ハーバード大学(Harvard University)のジョン・A・ポールソン工学・応用科学スクールのジョナサン・ジットレイン教授は、「Metaは車のキーを車内に置いたままドアを閉めてしまった」と言い表す。

 「Facebook」「Instagram」「WhatsApp」などの著名なサービスを手掛けるMetaが、なぜシンプルな間違いを犯してしまったのか。背景には、他の企業もひとごとではない事情がある。

凡ミスが招いた一連のトラブル 何が抜け落ちていたのか?

 障害が発生したとき、Metaのエンジニアは復旧のためにデータセンターに入り、手動でルーターとサーバのデバッグ(不具合の修正)をしなければならなかった。だがそのとき、従業員であってもMetaの施設に入ることが簡単ではなかった。データセンターへの入室を管理するシステムが停止していたからだ。通常でも、Metaのデータセンターとそこにあるネットワーク機器は厳重に保護されている。障害発生による混乱もあり、適切な担当者を現場に入らせるのに時間がかかった。

 そもそもこのMetaの障害は前編「Meta(旧Facebook)の最悪な障害はなぜ起きた? 悲惨な連鎖的エラーの裏側」で紹介した通り、間違ったコマンドを入力するという人的ミスが一連の障害を引き起こしたものだ。企業はこの事例から教訓として何を学べばいいのだろうか。

 ラーナー氏はこうした連鎖的な大規模障害を心配する前に、まずネットワークの安定稼働のための基本的な対策を確実に実施しなければならないと警告する。「率直に言って、ほとんどの企業は基本ができていない」(ラーナー氏)

 企業は基本的な作業として以下の点を徹底すべきだ。

  • ネットワーク機器の構成を追跡し、構成管理用のデータベースに反映する
  • 構成のロールバック(正常な状態に戻すこと)計画を立てる
  • ネットワーク変更時の検証を自動化する
  • ネットワークテストを頻繁に実行する

 こうした基本を押さえているのであれば、メディアをにぎわせる大規模障害の事例から学べることもあるだろうとラーナー氏は語る。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news150.jpg

「猛暑」「米騒動」「インバウンド」の影響は? 2024年に最も売り上げが伸びたものランキング
小売店の推定販売金額の伸びから、日用消費財の中で何が売れたのかを振り返るランキング...

news110.jpg

Netflixコラボが止まらない 「イカゲーム」シーズン2公開で人気爆上がり必至のアプリとは?
Duolingoは言語学習アプリとNetflixの大人気ドラマを結び付けたキャンペーンを展開。屋外...

news199.jpg

Yahoo!広告における脱デモグラフィックの配信・分析を実現 電通が「DESIRE Targeting」を提供開始
電通の消費者研究プロジェクトチームは、消費者を理解し、Yahoo!広告の配信や分析を実施...