検索
特集/連載

AWS大規模障害はなぜ起きた? クラウド不安を払拭するためにやるべき対策4時間にわたってアクセスできない状態に(1/2 ページ)

Amazon Web Services(AWS)で2月28日に障害が発生した。障害が発生したら、どうすればいいのか、事前にできることはないのか。行うべき対策を紹介する。

Share
Tweet
LINE
Hatena

Amazon Web Servicesの公式Webページ《クリックで拡大》

 Webサイトの反応が鈍くなり、Webページが読み込めなくなった2月28日。ソーシャルネットワーキングサービス(SNS)の「Twitter」に投稿された最初の反応は「これって自分だけ」だった。

 続いてAmazon Web Services(AWS)のクラウドストレージサービスがダウンしたという発表がニュースで報じられた。何万というサイトに障害が及び、AWSの障害はあまりに大きかったため不安が広がった。

クラウド ナビ


 今回の事態を受けて、クラウドコンピューティングがうたうアジリティや柔軟性といったメリットを当てにしていたCIO(最高情報責任者)は、クラウドの代替策を考える必要に迫られている。アプリケーションを別々のクラウドプロバイダーの間で分散させ、バブリッククラウドと社内プライベートクラウドを併用するハイブリッドクラウドへ投資を増やすべきなのか。それとも、クラウドプロバイダーが機能しなくなったときでもアプリケーションを機能する方法を見つけるべきなのか。

 今回のAWSで起きた障害のような事態を受けて真っ先にすべきことは、平静を保って自社のITアーキテクチャを見直すことだと業界の専門家は指摘する。

 調査会社Gartnerのアナリスト、リディア・レオン氏は、「自分が何に満足していて、何に不満を持っているかを判断すること」と指摘する。

依存関係

 「多くのIT部門がまず検証すべきは、インシデント対応、すなわち助けを求められた際にどう対応すべきか」だとレオン氏は言う。

 「今回の障害で皮肉だったのは、多くの組織のIT部門が何らかの障害があったときのインシデント対応の取りまとめに『Slack』を使っていたことだ」とレオン氏は言う。Slackは人気の高いメッセージングアプリケーションだ。「今回の場合、SlackもAWSの障害の影響を受けていた。このためSlackを使って対応しようとした場合、問題が生じた」(レオン氏)

 障害はまず、何兆本ものファイルや写真、ビデオが保存されているAWSの「Amazon Simple Storage Service」(S3)の減速で始まった。AWSがそのいきさつについて3月2日に公表した報告書によると、S3の課金システムが不安定になり、修理のために数台のサーバを停止させる必要が生じた。だが誤ったコマンドを入力したために、必要以上のサーバが多数ダウン。その復旧のためにリブートが必要になり、このためほぼ4時間にわたって多くのWebサイトが、サーバに保存された情報にアクセスできなくなった。

 障害は米バージニア州にあるAmazonの大規模リージョン「米東部1」のデータセンターで発生した。米国の4リージョンのうち、他のリージョンに保存されているデータはほとんど影響を受けなかった。

 Forrester Researchのアナリスト、デイブ・バートレッティ氏は、「特定のS3リージョンに対する自分たちの依存状況について誰もが検証する必要がある」と話す。その上で、最も重要なWebアプリケーションについては「特定リージョンのS3が使えなくなった場合にどう対応するかを見極めるために障害テストを実施すべき」だと提言する。

 同氏は実例として、AWSに完全依存しているオンラインビデオネットワークNetflixの例を挙げる。Netflixは、サーバ周辺で障害を発生させるための「Chaos Monkey」というコードを開発した。これは重要なアプリケーションが障害に対処できるかどうかを見極める助けになっている。

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る