一般企業でも構築できる、ハイパフォーマンスコンピューティングのススメ：クラウド化でHAも現実的に

最近まで、ハイパフォーマンスコンピューティングシステムは科学者など専門家だけのものだった。だが、今では多くの一般企業も利用し始めている。

≫ 2014年01月17日 08時00分公開

[Clive Longbottom，Computer Weekly]

Computer Weekly日本語版　2014年1月8日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版　2014年1月8日号」（PDF）掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

Computer Weekly日本語版　2014年1月8日号：オープンソースハードウェアになるデータセンター

なお、同コンテンツのEPUB版およびKindle（MOBI）版も提供しています。

　HPCは並列処理により、高度なアプリケーションプログラムを効率良く、安定して、素早く実行することだ。以前は、HPCシステムは極めて特殊なコンピュータだと見られていた。これには、エンジニアリングや設計システムに使われたCISCベースのIBM RS600やHP PA-RISCシステムなど、“スペシャリスト・ゼネラリスト”コンピュータ（つまり、特定のワークロード用で、多数製造されたシステム）から、大掛かりな数値演算用に非常に特殊なチップを使った特注のスーパーコンピュータまで含めることができるだろう。

　HPCシステムの最大の利用者は、科学者、研究者、エンジニア、学術機関、一部の公共機関だが、さらにあらゆる規模の企業が、処理性能と処理速度を求めて、HPCシステムへと向かっている。この傾向は、特にトランザクション処理とデータウェアハウス関連で見られる。

　一方、HAは、システムやコンポーネントが長時間にわたり運用を継続できることを表す。HAシステムの場合、システムの“ハートビート”を監視し、冗長システムへのフェイルオーバーを管理する専用のソフトウェアを備えた複雑なサーバクラスタが一般的だった。多くの企業が、99％を超える可用性で汎用システムを運用していることを誇りにしていた。目標は、「five nines five」（99.9995％）の可用性、つまり計画外のダウンタイムが1年に2.5分間以下の稼働率を実現することだった。

　かつて、HPCとHAの両方を実現するには多大な費用を要した。可用性が高く、かつパフォーマンスも優れているシステムを用意できる組織はごく小数だった。しかし現在は、HPCもHAも、システムの設計にはなから組み込まれていることが望ましい。ビッグデータやクラウドコンピューティングなど、新しい技術的アプローチには、目下のワークロードに必要なだけのリソースを備えているだけでなく、ワークロードの要件の変化に応じてリアルタイムでリソースを追加できるテクノロジープラットフォームが必要だ。HPCとHAを兼ね備えたシステムなら、この要件を、計画したダウンタイムも無計画のダウンタイムも皆無かそれに近いレベルの稼働率の下で実現できるだろう。

可用性の高いHPCデータセンターを構築

　現在はかつてないほど、可用性の高いHPCデータセンターの構築が容易になっている。仮想化とクラウドコンピューティングが、高可用性を実現する手段を提供している。コンピュータ、ストレージ、ネットワークの3大リソースのプールを賢く仮想化することで、1つのコンポーネントで障害が発生しても、プラットフォームの他のコンポーネントの運用への影響はほぼゼロになる。

　「影響がほぼゼロ」というのが、ここでは鍵になる。仮想化したプールが、例えば100個のコンポーネントで構成されている場合、1コンポーネントの障害は全体の1％にすぎず、パフォーマンスへの影響は最小限に抑えられる。一方、仮想化されたプールのコンポーネントが10個しかなければ、影響は10％になる。

　データセンター担当者は、仮想化を利用することでシステム自体の可用性を向上できるが、これは万能の解決策ではないことに注意してほしい。アプリケーションの仮想イメージ、仮想ストレージプール、仮想ネットワークパスは、それぞれに割り当てられた物理リソースに依存することに変わりはない。データセンターを設計する際、この点を考慮する必要がある。

　仮想イメージを実行しているサーバで障害が発生した場合、やはり物理サーバシステムのどこか別の場所で新しいイメージを起動し、接続を割り当て直す必要がある。VMware vSphere HA、Veeam Backup & Replication、Vision SolutionsのDouble-Takeなど、適切なソフトウェアがあれば障害復旧を自動化でき、会社への影響は最小限に抑えられる。多くの場合、ユーザーはサービスの中断に全く気付かない。

　ストレージレベルでは、ライブデータのミラーリングが必要だ。正真正銘のHAを実現するには、アクティブ／アクティブ構成でリアルタイム同期を行うアプローチを採用する必要がある。これは、スナップショットを利用することで、ニアリアルタイムを実現できる。ストレージアレイの障害発生時に、定期的に作成していたライブデータのコピーを基に“新しい”アレイを素早く作成し、提供すればよい。ほとんどのストレージベンダーは独自のストレージHAを提供しているが、EMC、NetApp、Dell、IBM、Hitachi Data Systems、HPはいずれも、各社の汎用のストレージ製品にHA機能を追加した上位バージョンを用意している。

　ネットワークについては、より“ファブリック”なネットワークに移行することで、HAを向上できる。端点が決められたポイントツーポイント接続ではなく、ベストエフォート型の構成である階層型ネットワークトポロジには、基本的なHA機能がある。しかし、これは低速であることも意味し、障害発生後の再構成に時間がかかり、なかなかパフォーマンスが回復されない可能性がある。

　ファブリックネットワークはネットワークの階層を取り除き、いずれかのコンポーネントで障害が発生した場合に、より動的にネットワークを再構成できる。このとき、以下の点が重要だ。

続きはComputer Weekly日本語版　2014年1月8日号にて

本記事は抄訳版です。全文は、以下でダウンロード（無料）できます。

Computer Weekly日本語版　2014年1月8日号：オープンソースハードウェアになるデータセンター

TechTargetジャパントップサーバ＆ストレージ