CIOがクラウドのシステム障害に備えてすべきこと：Gmailすら障害が発生

GoogleのGmailの障害により、最も信頼されているホステッドITでさえシステム障害の影響を受けることが分かったが、冗長化は高くつく。ITリーダーがすべきことは何か？

≫ 2013年11月11日 08時00分公開

[Cliff Saran，Computer Weekly]

　2013年9月に発生したGoogle Gmailの障害は、第一線のクラウドサービスでさえ、機能不全に陥ることが示された。では、クラウドの障害に対するレジリエンス（回復力）を確保するため、IT部門には何ができるのか？

Computer Weekly日本語版　2013年11月6日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版　2013年11月6日号」（PDF）掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

Computer Weekly日本語版　2013年11月6日号：大容量化で激変するフラッシュストレージ市場

なお、同コンテンツのEPUB版およびKindle（MOBI）版も提供しています。

　Googleは、オンプレミスのMicrosoft Exchangeサーバに掛かる多額のコストを攻撃のポイントにして、Microsoftからビジネスを奪ってきている。米調査会社Forresterの「Forrsights Hardware Survey」によると、北米およびヨーロッパのクラウドの普及率は、2009年の9％から2012年の46％に拡大している。CIOはますます従来型ITの資本支出を削り、ユーザー単位で課金される年間または月契約のSaaSクラウドに割り当てる傾向にあり、クラウドの普及拡大は必至だ。

　クラウドの普及に伴い、IT部門はクラウドサービスの障害に備えて対応策を用意する必要がある。

レジリエンスは高いが、脆さを伴うクラウド利用

　クラウドベースのサービス、特にGmailのようなグローバルなサービスは、100％近い可用性があると考えられている。パブリッククラウドサービスに求められる“無駄のない運用効率”というのは、従来型のデータセンターの運用コストの何分の1かの費用で、非常に高いレベルの可用性が得られることを意味する。

　Googleの規模を考えると、小さな問題が一瞬のうちに大問題になり得る。Googleは、二重の冗長ネットワークがダウンする大きな問題を経験した。この障害によって、一部のユーザーはメールの添付ファイルをダウンロードできず、最大2時間の遅延が発生した。Googleがこの問題を完全に解決するまで、12時間を要した。Gmailネットワークチームは、失われたネットワーク容量の一部を回復し、他システムを転用して容量の確保に努め、たまったメッセージを全て配信した。

　このGmailの障害・復旧劇は、クラウドサービスプロバイダーを1社のみ利用する場合の脆さを浮き彫りにした。特に、サービスがビジネスクリティカルなサービスであればその影響は大きい。Forresterのリポート「The 15 most important questions to ask your cloud identity and access management provider（クラウドのアイデンティティーおよびアクセス管理プロバイダーに聞くべき最も重要な質問15個）」において、アナリストのアンドラス・チェル氏は、IT管理者はクラウドプロバイダーに、カスタマーデータの機密性、整合性、可用性を確保する対策について尋ねるよう勧めている。この質問は、クラウドのアイデンティティーおよびアクセス管理にとどまらない。全てのクラウドプロバイダーは、これらの質問に対して確固たる答えを示せる必要がある。

　最大2時間というGmailの添付ファイルの遅配につながった障害発生後、Googleは運用手順を変更する必要性を認識。現在、ネットワークおよび障害復旧プロセスの改善を進めている。

　二重に冗長化されたネットワークではシステム停止は発生しないように思えるが、Gmailの障害は、マーフィーの法則（「失敗する可能性があるものは、失敗する」）の典型的な例だ。また、このGoogleのケースからは、小さなネットワーク障害さえ、大惨事になり得ることが分かった。

　Googleのサイト信頼性シニアエンジニアリングマネジャー、サブリナ・ファーマー氏は、ブログで次のように述べている。「現在、極めてまれな二重のネットワーク障害が発生した場合でも、バックアップ容量を含め、Gmail用に十分なネットワーク容量を確保できるよう対策に取り組んでいる。今回のような、発生する可能性が極めて低い問題が将来起きてネットワークの容量不足に見舞われても、Gmailのメッセージ配信をすぐに回復できるような変更も行う予定だ。また、今よりも速やかに効果的にネットワーク障害に対応できるよう、社内慣行の見直しを進めている」

　Googleの障害と、2013年8月に発生したAmazonのデータセンターの障害は、ITディレクターに大手のクラウドサービスでも障害が発生することをタイミングよく再認させる材料になった。Instagram、Netflix、Twitterのビデオ共有アプリ「Vine」、宿泊情報サイトAirbnbなども、Amazon Web Servicesが影響を受けた問題のためにパフォーマンス低下やアクセス不能に見舞われている。

　Googleと同様にAmazonの障害も、元をたどるとネットワークの問題に行き着く。Amazonの障害は、米バージニア州にあるデータセンターのネットワーク機器の故障が原因だった。

クラウドの事業継続性

　英国の求人サイトReed.co.ukは、Microsoft Officeではなく、GmailとGoogle Enterpriseを採用している。Reed.co.ukは今回のGmailの障害の影響は受けなかったが、ITディレクターのマーク・リドリー氏は、クラウドの障害の対応は、サービスをオンプレミスで運用している場合と同じだと考えている。

　「このような状況では、オンプレミスのサービスを自己管理しているか、マネージドホスティングを外注している場合と同じように弊社では対応する。長年、オンプレミスとマネージドホスティングの両方を管理してきた経験から、あらゆる対策を講じているにもかかわらず、“極めて珍しい出来事”が発生した場合の混乱には慣れっこだ」と語るリドリー氏は、以下のような対策を考えている。

続きはComputer Weekly日本語版　2013年11月6日号にて

本記事は抄訳版です。全文は、以下でダウンロード（無料）できます。

Computer Weekly日本語版　2013年11月6日号：大容量化で激変するフラッシュストレージ市場

TechTargetジャパントップクラウド