痛い思いをしてAmazon S3障害から得た教訓、「クラウド利用時のDRは大丈夫？」：クラウドは管理不能という現実

Amazon Web Services（AWS）のようなクラウドサービスを利用している企業は、障害発生に備えて災害対策（DR）計画を策定しておく必要がある。

≫ 2017年04月28日 12時00分公開

併せて読みたいお薦めの記事

AWSの障害に関する記事

AWS大規模障害はなぜ起きた？　クラウド不安を払拭するためにやるべき対策

クラウドで障害に備える

何が問題だったのか

　AWSの障害の原因は、ごく単純なものだった。AWSのエンジニアが通常のメンテナンス時にコマンドを誤入力してしまったことだ。その結果、S3の管理と監視を行うAWSのインフラが正常に稼働しなくなった。S3を使用する米国東部（バージニア北部、US-EAST-1）リージョン内のアプリケーションは、新しいオブジェクトを作成できなくなったもようだ。

　そのせいでDRアプリケーションは、新しいバックアップを保存できなくなった。S3をDRに使用する顧客は、RPO（目標復旧時点）を満たすことができなくなっていたかもしれない。またDRアプリケーションは、既存バックアップからリストアを行うこともできなくなり、RTO（目標復旧時間）の達成にも影響が及んだ。

　AWSが完全にサービスを復旧するまでには約6時間かかった。AWSによると、S3は99.9％の月間稼働率を目標としている。これを1カ月当たりのダウンタイムに換算すると、44分弱となる。AWSが2月については、料金の一部を返金しなければならないのは明らかだ。AWSの障害の影響を受けた顧客にとっては、稼働率は90％にとどまったとみられるからだ。

　だが、返金を受けても、障害時にDRイベントが発生した顧客には、ほとんど慰めにならないだろう。障害が解消されるまで、最後に完成したバックアップを使ってリカバリーを開始することができなかったからだ。

クラウド障害にどう備えるか

　AWSの障害の第一の教訓は、クラウドサービスは管理不能であるということだ。特定のクラウドサービスがDRニーズを満たしているかどうかをビジネスの観点から判断するには、提供されるサービスレベルを認識する必要がある。

　クラウドプロバイダーのシステムと自社のプライマリーデータセンターで同時に障害が発生する可能性は低い。Google検索でざっと調べたところ、S3は2006年のサービス開始以来、大規模な障害が3回程度発生しているようだ。自社のデータセンターとAWSを結ぶネットワーク回線の方が、RPOやRTOの大きなリスクとなりそうだ。「これらのリスクがDR計画に文書化されているかどうか」「こうしたリスクを踏まえても、『サービスとしてのDR』（DRaaS）を利用することはビジネス上、理にかなっているかどうか」をチェックする必要がある。

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}

続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

TechTargetジャパントップクラウド