イーサネット、それともInfiniBand? GPUを生かすネットワークとは:GPUクラスタに最適なネットワーク要件【前編】
GPUの性能を最大限引き出すために、どのようなネットワークを選ぶべきかに悩む企業は少なくない。Gartnerが推奨する事項を基に、そのヒントを紹介する。
AIがビジネスの中核に据えられる中で、GPUなどの計算リソースはもはや単なる裏方ではなく、企業の競争力を左右する戦略的資産へと変わりつつある。調査会社Gartnerによると、2022年10月から2024年10月にかけて、GPUを含むAIインフラに関する問い合わせ件数は、年間で約4倍に増加した。
大規模なGPUクラスタの性能を最大限引き出すためには、従来のインフラとは異なる設計や構成が求められる。中でもネットワークは、ノード(サーバやストレージ、ネットワーク機器など)間に使われる「イーサネット」や「InfiniBand」、GPU間に使われる「NVLink」など、複数ある技術の中からどれを選ぶべきか判断に悩む企業は少なくない。
GPUを生かすネットワークの条件
Gartnerには「GPUクラスタ接続にはどの技術を使うべきか」という相談が多く寄せられているという。「GPUクラスタの性能を確保するにはInfiniBandやNVLinkを使う必要がある」という考え方もあるが、必ずしもそうではない。これらのネットワーク技術は相互排他的なものではない。例えば、イーサネットとInfiniBandを組み合わせて規模を拡張することも可能だ。
Gartnerは、数千基規模のGPUクラスタであればイーサネットの導入を推奨している。イーサネットベースのインフラは十分な信頼性と性能を備えている。企業の導入実績も豊富で、エコシステムも成熟しているからだ。とはいえ、単に案件の規模に応じてイーサネットなど特定の技術を選べばよいわけではない。GPUクラスタを最大限に活用するには、ネットワークとGPUの接続が適切に設計されていることが不可欠だ。
共同認定された実装でリスクを低減する
AIワークロードは性能要件が非常に厳しく、GPUとネットワークスイッチ間の接続には、ハードウェアとソフトウェアの両面での最適化とエラー排除が不可欠だ。ネットワークやGPU技術が急速に進化している中で、その難易度はますます高まっている。
こうした背景を踏まえて、Gartnerはユーザー企業に対し、ネットワーク機器とGPUそれぞれのベンダーが共同認定(co-certification)した実装ガイドに準拠することを推奨する。このガイドに従えば、両ベンダーの仕様に基づいて構成されたことが保証されるため、導入後のトラブル発生リスクを低減できる。万一障害が発生した場合でも、平均修復時間(MTTR)の短縮が期待できる。
Gartnerはネットワークファブリック構築に当たり、Ultra Ethernet Consortium(UEC)およびUltra Accelerator Link(UAL)の両仕様に準拠するハードウェアプロバイダーを選ぶよう推奨している。
UECは、高性能ワークロードに対応するイーサネット規格を業界標準として策定する取り組みだ。2025年2月時点でまだ標準仕様は存在しないが、Gartnerは2025年中にドラフトが公開されると見込む。
イーサネット接続に必要な各種機能は、現時点ではベンダーごとに独自実装されており、その結果として特定ベンダーへの依存(ベンダーロックイン)が避けられない状況にある。UECの標準が策定されることで、複数のベンダー製品間で相互運用(インターオペラビリティ)が可能となり、ベンダーロックインを回避できるようになる。
UECと別軸で進められているのがUALだ。UALは、ラックや棚単位に最適化された高速アクセラレーター間接続規格で、現行のイーサネットやInfiniBandでは対応できない規模の帯域ニーズに応えられるよう設計されている。これにより、スケールアップ時に求められる高速かつ拡張性のある接続が標準化される見通しだ。
ネットワークとGPUに関する共同認定の利点
Gartnerによると、ネットワークとGPUに関する共同認定では、導入設計や実装に役立つ具体的なガイダンスを提供している。ガイダンスには、以下のような詳細な推奨事項が盛り込まれる。
- ケーブリング図や仕様を含む物理トポロジー(構成)
- スイッチ、ネットワークインタフェースカード(NIC)、GPUそれぞれのSKU(製品番号)に関するハードウェア仕様
- スイッチ、GPU、NICに対応する特定バージョンのファームウェア
- スイッチ、サーバ、NICに対応する特定バージョンのソフトウェア
一方、共同認定に従った導入には、次のようなデメリットもある。
- 選べるサプライヤーが限られる
- 初期導入に手間と時間がかかりやすい
とはいえGartnerは、高い可用性が確保できるという点から、導入にかかる手間やコスト以上の価値があると評価している。
次回は、GPUの性能を引き出すためのネットワーク設計のヒントを解説する。
Computer Weekly発 世界に学ぶIT導入・活用術
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.