Meta(旧Facebook)のサービス停止に学ぶ“3つの戒め” 自問すべき点はこれ甚大なソーシャルメディア障害【後編】

Meta(旧Facebook)のシステム障害は深刻な事態を招いた。同様の事態に陥らないために、企業はこの事例から教訓として何を学ぶべきなのか。

2022年01月05日 05時00分 公開
[Alissa IreiTechTarget]

 2021年10月に発生したMeta(旧Facebook)の大規模障害では、エンジニアの設定ミスが連鎖的に複数のトラブルを招いた。どのように連鎖したのかは前編「Meta(旧Facebook)の最悪な障害はなぜ起きた? 悲惨な連鎖的エラーの裏側」で紹介している。この深刻なトラブル事例から、企業は何を学ぶべきだろうか。専門家のアドバイスを基にして、企業がMetaのシステム障害から学べる3つの対策を紹介する。

1.最悪の事態を想定する

 大規模障害を避ける上では「創造的な悲観主義」になって、さまざまな障害の可能性を探っておくことが重要だ。ラーナー氏は企業のIT担当者に、1カ所に障害が発生するとシステム全体の停止を引き起こす「単一障害点」をネットワーク内で探すことを推奨する。その上で、単一障害点がどのように連鎖的な障害を引き起こす可能性があるかを検討することが欠かせないという。

 例えばネットワークのトラブルシューティングにおいて特定の「SIEM」(Security Information and Event Management:セキュリティ情報イベント管理)に依存している場合、そのSIEMが利用できなくなったら何か起きるのかを企業は考えなければならない。障害点としては、認証機能やMetaの大規模障害のようなDNS(名前解決)サーバもある。

2.最悪の事態に備えた対策を練る

 企業は定期的に机上訓練を実施することが欠かせない。Metaのサービスに発生したような連鎖的なネットワーク障害を想定して、対策をシミュレーションすべきだという点で専門家の意見は一致する。

 「Metaの大規模障害から言えることは、企業は自分たちのインフラが使えなくなったら何が起きるのかを考慮した障害復旧を目指さなければならないということだ」と、コンサルティング会社NetCraftsmenのプリンシパルアーキテクト、テリー・スラテリー氏は指摘する。

 スラテリー氏は、障害発生時の対策はアウトオブバンドのネットワークアクセスに懸かっていると話す。アウトオブバンドのネットワークアクセスとは、DNSサーバなどの単一障害点を介さずにシステムを管理可能なネットワークアクセスを指す。Metaは、2021年10月の大規模障害でアウトオブバンドのネットワークが停止したと説明しているものの、その原因については触れていない。

3.最悪の事態に備えた計画を検証する

 障害時の復旧計画をシミュレーションするだけではなく、一歩進んで障害発生のテストを実施することも欠かせない。このテストにおいては、Netflixの障害テストツール「Chaos Monkey」や、サイバーセキュリティのペネトレーションテストツールと同様に、意図的に問題を発生させる。ネットワークにおいては、ルーターの停止など接続を切断することで、アーキテクチャの脆弱(ぜいじゃく)性を特定したり、復旧プロセスが正常に機能するかどうかを診断したりする。

 スラテリー氏は「ほとんどの企業は障害テストを嫌い、回避している」と言う。訓練には事前の準備が必要になるし、訓練が本当の障害につながる懸念もあるからだ。だが実は、この点に障害テストの価値があるという。「自分で発生させた障害に対処できなければ、本当の緊急事態で対処するのは困難だ」(同氏)

 ラーナー氏も似た見方をしている。「企業は長期にわたって障害を発生させず、高い可用性を提供することを目指してきたが、この戦略は誤った方向に行き着いた」と同氏は指摘する。平穏な期間は、企業が抱える固有の不安定性やもろさを隠してしまうからだ。そのためいったん問題が発生すると、表面していなかったさまざまな問題を連鎖的に発生するリスクがある。「企業が直面する深刻な障害のほとんどは、連鎖的なものだ」(同氏)

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

製品資料 ゾーホージャパン株式会社

ネットワーク遅延の原因を追究、帯域利用の現状分析と将来予測を手軽に行う方法

リモートワークやクラウドサービスが拡大する中、ネットワーク遅延の課題を抱える企業も少なくない。通信遅延は生産性にも影響するだけに契約帯域の見直しも考えられるが、適切な帯域を把握するためにも、帯域利用状況を分析したい。

事例 株式会社マクニカ

通信コストを約4分の1削減&Web会議も快適に、事例で学ぶネットワーク改善術

在宅勤務でSIM通信を利用していたが、クラウドの通信量急増により、帯域が圧迫されWeb会議での音切れが発生したり、コストがかさんだりと、ネットワーク環境の課題を抱えていたシナネンホールディングス。これらの問題を解消した方法とは?

プレミアムコンテンツ アイティメディア株式会社

VPNが「もはや時代遅れ」であるこれだけの理由

VPN(仮想プライベートネットワーク)は、セキュリティの観点から見ると、もはや「安全なツール」とは言い切れない。VPNが抱えるリスクと、その代替として注目されるリモートアクセス技術について解説する。

製品資料 アルテリア・ネットワークス株式会社

VPNの3つの課題を一掃する、次世代インターネットVPNサービスの実力

インターネットVPNサービスの市場規模は増加傾向にあるが、パフォーマンスやセキュリティなどの課題が顕在化している。VPNの利用状況などのデータを基にこれらの課題を考察し、次世代インターネットVPNサービスの利点と可能性を探る。

市場調査・トレンド ゼットスケーラー株式会社

ファイアウォールとVPN中心のセキュリティアプローチは危険? 4つの理由を解説

代表的なセキュリティツールとして活用されてきたファイアウォールとVPNだが、今では、サイバー攻撃の被害を拡大させる要因となってしまった。その4つの理由を解説するとともに、現状のセキュリティ課題を一掃する方法を解説する。

郢晏生ホヲ郢敖€郢晢スシ郢ァ�ウ郢晢スウ郢晢ソスホヲ郢晢ソスPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

Meta(旧Facebook)のサービス停止に学ぶ“3つの戒め” 自問すべき点はこれ:甚大なソーシャルメディア障害【後編】 - TechTargetジャパン ネットワーク 隴�スー騾ケツ€髫ェ蛟�スコ�ス

TechTarget郢ァ�ク郢晢ス」郢昜サ」ホヲ 隴�スー騾ケツ€髫ェ蛟�スコ�ス

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。