AWS障害からの復旧計画時に意識したい「RPO」「RTO」とは?:AWSの障害対策における4つのポイント【後編】
「Amazon Web Services」(AWS)に障害が起きたときのために、どのように復旧計画を立てればよいのだろうか。「復旧対象のデータの評価」「復旧計画に使う指標」「復旧の訓練」の観点から説明する。
パブリッククラウドでは天変地異やハードウェアの障害、サイバー攻撃が原因のサービス停止がいつか必ず起こる。Amazon Web Services(AWS)の同名パブリッククラウドも例外ではない。AWSをはじめとするクラウドベンダーは、ITインフラ停止の被害を最小限に抑えるための機能やサービスを幾つか提供している。
本稿は前編「AWSの可用性を確保する方法とは?」に引き続き、AWSをはじめとするパブリッククラウドを利用するときの、障害対策の方法を説明する。
併せて読みたいお薦め記事
クラウドの障害対策
- 「Google Cloud Platform」(GCP)の障害を引き起こしたエンジニアの行動とは?
- パブリッククラウドならではの「障害対策」「従量課金」「セキュリティ」とは
- IaaSはなぜダウンしないのか、ダウンしたらどうなるのか
それでもクラウドを使う理由
- AWS障害やデータ漏えい事件があっても、米国防総省がクラウドを信頼する訳
- いまさら聞けない「クラウドストレージ」と「仮想ストレージ」
- AWS、Azure、GCPの「クラウドストレージ」を比較する3つのポイント
データの種類と重要度を評価する
パブリッククラウドの障害に備えるには、企業の業務に関する要件と技術に関する要件の足並みをそろえる必要がある。ITコンサルティング企業のUptime InstituteでIT戦略部門の最高責任者を務めるトッド・トラバー氏は、パブリッククラウドに配置されているデータの種類ごとに、データ保護と可用性確保の方法や保管期間について評価し、分類しなければならないと話す。この分類に基づいて、利用するデータセンターの種類や地域に加え、複数のハードウェア間でデータを同時に書き込むミラーリングの手法を決定する。
トラバー氏は、データを処理するための要件をルール化してドキュメントにすることも勧める。これはパブリッククラウド障害の影響を受ける恐れがある自社の事業部門のさまざまなエンドユーザーと協力して実施する。
AWSのユーザー企業であれば、メッセージキューイングサービス「Amazon Simple Queue Service」を利用することで、キュー(メッセージ待機列)の長さに基づいて仮想マシン(VM)を個別にスケーリングできる。万が一障害が発生しても、キューに入れられた要求はアプリケーションが復旧したときに新しいVMに引き継がれる。
「RPO」「RTO」など復旧計画に適用する指標を確立させる
Copyright © ITmedia, Inc. All Rights Reserved.