今日もまたコンピュータが動かない――その理由と対策NYSE、WSJのシステム停止はなぜ起きた?(1/2 ページ)

仮想化と自動化のソフトウェアのおかげでシステム障害への対応は迅速に行われるようになったものの、有名企業はいまだにシステム停止の憂き目に遭っている。

2015年08月11日 12時00分 公開
[Nick MartinTechTarget]
画像 米Netflixの「Chaos Monkey」はクラウド上での耐障害性をテストするツール。オープンソースで公開されている《クリックで拡大》

 このところ、米紙The Wall Street Journal、米ニューヨーク証券取引所(以下、NYSE)、米航空会社United Airlinesなど、有名企業がデータセンターのシステム障害トラブルに見舞われる事態が相次いでいる。システム障害を完全に防ぐことは不可能だが、こうしたトラブルが大々的に報じられれば金銭的損失も大きく、顧客が企業に抱くイメージにも響く。そこで米TechTargetの顧問委員に話を聞いた。企業が高いレベルのアップタイムを維持するにはどうすればいいのか? ダウンタイムを招く過ちにはどのようなものがあるのか? 平均的なデータセンターの堅牢性や耐障害性は顧客が期待するレベルなのか、それでも時折システム停止が発生するのは仕方ないことなのか?

ブライアン・キルシュ氏(米ミルウォーキー地域技術カレッジ)

 可用性とその他の要件のバランスはITの重要課題の1つだ。システムは必要な限り常に稼働しているべきだと誰もが考えており、企業の管理職や経営陣もそれは同じだろう。問題は、可用性とそれを確保するために必要な代償のバランスをどう取るかにある。それは単なるコストだけの話ではなく、総合的な運用性を実現する複雑さとテストがカギになる。1つのハードウェア製品やソフトウェア製品だけで可用性を確保できるという考えはもう通用しない。バックアップとディザスタリカバリ(DR)の製品はますます幅広く効果的になっているものの、アプリケーションの方はどんどん複雑化している。アプリケーションと可用性は常にせめぎ合っており、現行のDR製品がアプリケーションのニーズとデザインについていけなくなったとき、大規模なシステム障害を招くことになる。

 だが、ハードウェアとソフトウェアはシステム障害というパズルの1つのピースにすぎない。システム障害の原因の多くは、システムエラーと変更だ。システムエラーを防ぐ設計、不正な変更を封じる安全対策は実施されているだろう。しかし、いくらフロントエンドでこうした対策を講じても、システム障害を完全に防ぐことはできない。そろそろディザスタリカバリとシステム障害に関する考え方を改めるときが来ている。これからは、単にシステム障害を防ごうとするのではなく、システム障害が発生するという前提でシステムを設計すべきだ。システム障害の発生を想定し、表面的なものにとどまらない対策を用意すれば、アプリケーションは真の耐障害性を確保できる。そのためには、システム障害を正しく処理できることをテストして確認することだ。

 これをどこよりも如実に実践したのが、米Netflixと同社の「Chaos Monkey」エンジニアリンググループだ。同社は「Amazon EC2」クラウドでサービスを運用しており、EC2クラウドの大規模リブートが実施されたとき、サービスを維持する必要があった。多くの企業がEC2クラウドのリブートは自分たちに影響しないと考え、そのほとんどはシステム停止対策を講じなかった。だが、NetflixとChaos Monkeyエンジニアリンググループは違った。Chaos Monkeyは日常的にシステム障害を繰り返し発生させるツールだ。Netflixは可用性を確保するために、大規模なシステム停止が発生する前に日ごろから継続的にテストして問題を修正し、システム障害を念頭に置いたサービスを作成した。

デイヴ・ソーベル氏(英LogicNow)

 NYSE、The Wall Street Journal、United Airlinesのような企業でシステム停止が発生するのは不面目といえる事態だ。システム停止は高くつく。比較的安価なコンピューティングリソースで対策を講じておけば、ダウンタイムを最小限に抑えることができる。クリティカルニーズのある企業は、クラウドでバックアップシステムを簡単に構築でき、それを緊急時にのみ使用することが可能だ。例えば、「Microsoft Azure」はアクティブコンピューティングロードについてのみ課金されるので、問題が発生するまでは、バックアップネットワーク全体をコールドスタンバイ状態で待機させることができる。ホットスタンバイも最小限の利用レベルに設定でき、いつでもフェイルオーバー可能にしておける。既に利用しているであろうモニタリングと管理のソフトウェアも進化を続けており、予測分析でダウンタイムに備えることができる。

 だが、システム停止の影響を緩和するには、コミュニケーションが最も重要だ。United Airlinesのシステム障害で実際に足止めされた乗客の話のように、情報の欠如は最も不満を招く。企業は一刻も早く状況の把握に努め、慎重な見通しを示し、期待以上の結果を出すべきだ。ソーシャルメディアへの発信もなく、従業員にも情報が伝えられていないようでは、顧客サービスは最悪になる。

Copyright © ITmedia, Inc. All Rights Reserved.

       1|2 次のページへ

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

事例 INFINIDAT JAPAN合同会社

IOPSが5倍に向上&コストも80%削減、エクシングが選んだ大容量ストレージとは

カラオケ業界が直面するデータ増に対応すべく多くのストレージを試し続けた結果、4社27台の製品のメンテナンスに悩まされていたエクシング。この問題を解消すべく、同社は大容量かつコスト削減効果に優れた、新たなストレージを導入した。

製品資料 プリサイスリー・ソフトウェア株式会社

データソート性能向上でここまで変わる、メインフレームのシステム効率アップ術

メインフレームにおけるデータソート処理は、システム効率に大きく影響する。そこで、z/OSシステムおよびIBM Zメインフレーム上で稼働する、高パフォーマンスのソート/コピー/結合ソリューションを紹介する。

事例 INFINIDAT JAPAN合同会社

従来ストレージの約8倍の容量を確保、エルテックスが採用したストレージとは

ECと通販システムを統合したパッケージの開発と導入を事業の柱とするエルテックスでは、事業の成長に伴いデータの容量を拡大する必要に迫られていた。そこでストレージを刷新してコスト削減や可用性の向上などさまざまな成果を得たという。

製品資料 日本ヒューレット・パッカード合同会社

空冷だけではなぜ不十分? データセンターの熱負荷対策をどうする

CPUやGPUの性能向上に伴い、データセンターでは今、発熱量の増加にどう対応するかが課題となっている。特に高密度なサーバ環境では、従来のファンやヒートシンクに頼るだけでは熱管理が難しい。こうした中、企業が採用すべき手段とは?

製品資料 Dropbox Japan株式会社

ファイルサーバをアウトソーシング、「クラウドストレージサービス」の実力

中堅・中小企業の中には、IT担当者が社内に1~3人しかいないという企業も少なくない。そのような状況でも幅広い業務に対応しなければならないIT担当者の負担を減らす上では、ファイルサーバをアウトソーシングすることも有効だ。

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news026.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...

news130.jpg

Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...