GoogleのGmailの障害により、最も信頼されているホステッドITでさえシステム障害の影響を受けることが分かったが、冗長化は高くつく。ITリーダーがすべきことは何か?
2013年9月に発生したGoogle Gmailの障害は、第一線のクラウドサービスでさえ、機能不全に陥ることが示された。では、クラウドの障害に対するレジリエンス(回復力)を確保するため、IT部門には何ができるのか?
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 2013年11月6日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
Googleは、オンプレミスのMicrosoft Exchangeサーバに掛かる多額のコストを攻撃のポイントにして、Microsoftからビジネスを奪ってきている。米調査会社Forresterの「Forrsights Hardware Survey」によると、北米およびヨーロッパのクラウドの普及率は、2009年の9%から2012年の46%に拡大している。CIOはますます従来型ITの資本支出を削り、ユーザー単位で課金される年間または月契約のSaaSクラウドに割り当てる傾向にあり、クラウドの普及拡大は必至だ。
クラウドの普及に伴い、IT部門はクラウドサービスの障害に備えて対応策を用意する必要がある。
クラウドベースのサービス、特にGmailのようなグローバルなサービスは、100%近い可用性があると考えられている。パブリッククラウドサービスに求められる“無駄のない運用効率”というのは、従来型のデータセンターの運用コストの何分の1かの費用で、非常に高いレベルの可用性が得られることを意味する。
Googleの規模を考えると、小さな問題が一瞬のうちに大問題になり得る。Googleは、二重の冗長ネットワークがダウンする大きな問題を経験した。この障害によって、一部のユーザーはメールの添付ファイルをダウンロードできず、最大2時間の遅延が発生した。Googleがこの問題を完全に解決するまで、12時間を要した。Gmailネットワークチームは、失われたネットワーク容量の一部を回復し、他システムを転用して容量の確保に努め、たまったメッセージを全て配信した。
このGmailの障害・復旧劇は、クラウドサービスプロバイダーを1社のみ利用する場合の脆さを浮き彫りにした。特に、サービスがビジネスクリティカルなサービスであればその影響は大きい。Forresterのリポート「The 15 most important questions to ask your cloud identity and access management provider(クラウドのアイデンティティーおよびアクセス管理プロバイダーに聞くべき最も重要な質問15個)」において、アナリストのアンドラス・チェル氏は、IT管理者はクラウドプロバイダーに、カスタマーデータの機密性、整合性、可用性を確保する対策について尋ねるよう勧めている。この質問は、クラウドのアイデンティティーおよびアクセス管理にとどまらない。全てのクラウドプロバイダーは、これらの質問に対して確固たる答えを示せる必要がある。
最大2時間というGmailの添付ファイルの遅配につながった障害発生後、Googleは運用手順を変更する必要性を認識。現在、ネットワークおよび障害復旧プロセスの改善を進めている。
二重に冗長化されたネットワークではシステム停止は発生しないように思えるが、Gmailの障害は、マーフィーの法則(「失敗する可能性があるものは、失敗する」)の典型的な例だ。また、このGoogleのケースからは、小さなネットワーク障害さえ、大惨事になり得ることが分かった。
Googleのサイト信頼性シニアエンジニアリングマネジャー、サブリナ・ファーマー氏は、ブログで次のように述べている。「現在、極めてまれな二重のネットワーク障害が発生した場合でも、バックアップ容量を含め、Gmail用に十分なネットワーク容量を確保できるよう対策に取り組んでいる。今回のような、発生する可能性が極めて低い問題が将来起きてネットワークの容量不足に見舞われても、Gmailのメッセージ配信をすぐに回復できるような変更も行う予定だ。また、今よりも速やかに効果的にネットワーク障害に対応できるよう、社内慣行の見直しを進めている」
Googleの障害と、2013年8月に発生したAmazonのデータセンターの障害は、ITディレクターに大手のクラウドサービスでも障害が発生することをタイミングよく再認させる材料になった。Instagram、Netflix、Twitterのビデオ共有アプリ「Vine」、宿泊情報サイトAirbnbなども、Amazon Web Servicesが影響を受けた問題のためにパフォーマンス低下やアクセス不能に見舞われている。
Googleと同様にAmazonの障害も、元をたどるとネットワークの問題に行き着く。Amazonの障害は、米バージニア州にあるデータセンターのネットワーク機器の故障が原因だった。
英国の求人サイトReed.co.ukは、Microsoft Officeではなく、GmailとGoogle Enterpriseを採用している。Reed.co.ukは今回のGmailの障害の影響は受けなかったが、ITディレクターのマーク・リドリー氏は、クラウドの障害の対応は、サービスをオンプレミスで運用している場合と同じだと考えている。
「このような状況では、オンプレミスのサービスを自己管理しているか、マネージドホスティングを外注している場合と同じように弊社では対応する。長年、オンプレミスとマネージドホスティングの両方を管理してきた経験から、あらゆる対策を講じているにもかかわらず、“極めて珍しい出来事”が発生した場合の混乱には慣れっこだ」と語るリドリー氏は、以下のような対策を考えている。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
Copyright © ITmedia, Inc. All Rights Reserved.
契約業務の効率化やコストの削減といった効果が期待できることから、多くの企業で「電子署名」の導入が進んでいる。一方で、訴訟問題へと発展した際に証拠として使えるのかといった疑問を抱き、導入を踏みとどまるケースもあるようだ。
半導体ベンダーBroadcomは仮想化ベンダーVMwareを買収してから、VMware製品の永久ライセンスを廃止した。その永久ライセンスを継続する非公認の方法とは。
システム基盤をオンプレミスで運用するか、データセンターやクラウドで運用するかは、業種によって大きく異なる。調査結果を基に、活用の実態を探るとともに、最適なクラウドサービスを考察する。
SaaSサービスが普及する一方、製品の多様化に伴い、さまざまな課題が発生している。特にベンダー側では、「商談につながるリードを獲得できない」という悩みを抱える企業が多いようだ。調査結果を基に、その実態と解決策を探る。
生成AIの活用が広がり、LLMやマルチモーダルAIの開発が進む中で、高性能なGPUの確保に問題を抱えている企業は少なくない。GPUのスペック不足を解消するためには、どうすればよいのか。有力な選択肢を紹介する。
KDDIの通信品質と事業成長を支える“共通インフラデータ基盤”構築の舞台裏 (2025/3/12)
高まるSaaSバックアップ需要で「ストック収益」を拡大するには (2025/1/22)
大和総研に聞く、基幹システムのモダナイズ推進を成功に導いた四つのポイント (2024/12/23)
「オンプレミス仮想化基盤」のモダナイゼーションに最適なクラウド移行の進め方 (2024/11/11)
コストや効率の課題解消、ITとOTの統合運用管理を実現する理想的なインフラとは (2024/10/18)
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。