AWS大規模障害はなぜ起きた？　クラウド不安を払拭するためにやるべき対策：4時間にわたってアクセスできない状態に（1/2 ページ）

Amazon Web Services（AWS）で2月28日に障害が発生した。障害が発生したら、どうすればいいのか、事前にできることはないのか。行うべき対策を紹介する。

≫ 2017年03月16日 08時00分公開

併せて読みたいお薦め記事

クラウドビックスリー比較

パブリッククラウドの選択肢

クラウドナビ

AWS（Amazon Web Services）

　今回の事態を受けて、クラウドコンピューティングがうたうアジリティや柔軟性といったメリットを当てにしていたCIO（最高情報責任者）は、クラウドの代替策を考える必要に迫られている。アプリケーションを別々のクラウドプロバイダーの間で分散させ、バブリッククラウドと社内プライベートクラウドを併用するハイブリッドクラウドへ投資を増やすべきなのか。それとも、クラウドプロバイダーが機能しなくなったときでもアプリケーションを機能する方法を見つけるべきなのか。

　今回のAWSで起きた障害のような事態を受けて真っ先にすべきことは、平静を保って自社のITアーキテクチャを見直すことだと業界の専門家は指摘する。

　調査会社Gartnerのアナリスト、リディア・レオン氏は、「自分が何に満足していて、何に不満を持っているかを判断すること」と指摘する。

依存関係

　「多くのIT部門がまず検証すべきは、インシデント対応、すなわち助けを求められた際にどう対応すべきか」だとレオン氏は言う。

　「今回の障害で皮肉だったのは、多くの組織のIT部門が何らかの障害があったときのインシデント対応の取りまとめに『Slack』を使っていたことだ」とレオン氏は言う。Slackは人気の高いメッセージングアプリケーションだ。「今回の場合、SlackもAWSの障害の影響を受けていた。このためSlackを使って対応しようとした場合、問題が生じた」（レオン氏）

　障害はまず、何兆本ものファイルや写真、ビデオが保存されているAWSの「Amazon Simple Storage Service」（S3）の減速で始まった。AWSがそのいきさつについて3月2日に公表した報告書によると、S3の課金システムが不安定になり、修理のために数台のサーバを停止させる必要が生じた。だが誤ったコマンドを入力したために、必要以上のサーバが多数ダウン。その復旧のためにリブートが必要になり、このためほぼ4時間にわたって多くのWebサイトが、サーバに保存された情報にアクセスできなくなった。

　障害は米バージニア州にあるAmazonの大規模リージョン「米東部1」のデータセンターで発生した。米国の4リージョンのうち、他のリージョンに保存されているデータはほとんど影響を受けなかった。

　Forrester Researchのアナリスト、デイブ・バートレッティ氏は、「特定のS3リージョンに対する自分たちの依存状況について誰もが検証する必要がある」と話す。その上で、最も重要なWebアプリケーションについては「特定リージョンのS3が使えなくなった場合にどう対応するかを見極めるために障害テストを実施すべき」だと提言する。

　同氏は実例として、AWSに完全依存しているオンラインビデオネットワークNetflixの例を挙げる。Netflixは、サーバ周辺で障害を発生させるための「Chaos Monkey」というコードを開発した。これは重要なアプリケーションが障害に対処できるかどうかを見極める助けになっている。

アプリケーションの強化

　　　　　　 1|2 次のページへ

TechTargetジャパントップクラウド