「GPU」を生かすも殺すもネットワーク トポロジー設計の勘所は?GPUクラスタに最適なネットワーク要件【後編】

AIワークロードを動かすためのネットワークをどのように再設計すべきかについて、企業は頭を悩ませている。AIインフラのネットワーク運用のヒントを、Gartnerの提言を基に解説する。

2025年07月03日 07時00分 公開
[Andrew LernerTechTarget]

関連キーワード

GPU | ネットワーク | Gartner | 人工知能


 CPUベースの汎用(はんよう)コンピューティング環境では、リーフ/スパイン型のネットワークトポロジー(構成)が広く採用されてきた。しかし、この構成は必ずしもAIワークロードに最適とは言えない。

 既存のデータセンターネットワークでAIワークロードを稼働させると、いわゆる「うるさい隣人」(ノイジーネイバー)問題が生じるリスクがある。これにより、AIワークロードと既存ワークロードの双方で処理遅延やジョブ完了の遅れが生じ、データセンター全体の処理効率やサービス品質が大きく損なわれかねない。こうしたリスクを回避し、GPUの利用に最適化されたネットワーク技術を選ぶには、どのようなポイントに着目すればいいのか。

GPUクラスタ設計で問われる“トポロジーの勘所“

会員登録(無料)が必要です

 一般的に、AIインフラの構築において、ネットワークスイッチが占めるコストは全体の15%以下だ。そのため、既存スイッチを流用して短期的にコストを抑えるよりも、GPU向けに最適化された専用スイッチに投資する方が長期的な費用対効果は高くなる。

 こうした背景から、調査会社Gartnerは以下のように提言する。

  • GPU接続専用の物理スイッチを新規導入する
  • リーフ/スパイン型に固執せず、ホップ数(物理スイッチの台数)をできるだけ減らす
  • 単一スイッチ、二重スイッチ、フルメッシュ、キューブメッシュ、ドラゴンフライなど、用途に応じて適切なネットワークトポロジーを選択する
  • 既存のデータセンター向けスイッチとは分離する
  • GPUが500基未満の場合は、1~2台の物理スイッチが理想
  • GPUが500基以上の場合は、専用のAI向けイーサネットファブリックを導入する
    • その際、標準的なラック単位のトップオブラック(ToR)構成から、ミドルオブロー(MoR)やモジュラー型のスイッチへの移行が必要となる可能性がある。

 特にイーサネットを導入する場合には、以下の要件を満たす専用スイッチを採用すべきだという。

  • GPU向けの高速インタフェース対応
    • 400Gbps以上のアクセスポートなど、GPU接続に十分な帯域が確保できること。
  • ロスレスイーサネット対応
    • 「量子化輻輳(ふくそう)通知」(DCQCN)など、データセンター向けの輻輳対策メカニズムに対応していること。
  • 高度なトラフィックバランシング機能
    • 輻輳状況に応じた動的ロードバランシングに対応できること。
  • RDMA対応のロードバランシングとパケットスプレー機能
    • リモートダイレクトメモリアクセス(RDMA)に対応し、複数経路へのパケット分散が可能であること。

 AIワークロード向けネットワークでは、データフローを特定経路に固定する「静的ピニング」により、通信速度や応答時間を安定させることができる。一方で、その運用には高度な監視体制が欠かせず、管理層に以下のような機能が必要となる。

  • 迅速なアラート、診断、修復機能
    • 問題発生時に即座に通知し、原因特定から対応まで迅速に実施できること
  • きめ細かいテレメトリー(可視性)
    • サブ秒(1秒未満)や100ミリ秒未満の間隔で詳細なデータが取得できることで、トラブルシューティングや現場状況の把握が容易になること
  • リアルタイム監視と履歴レポート機能
    • 帯域利用率、パケットロス、レイテンシ、ジッター(レイテンシのばらつき)といった指標を、サブ秒単位で監視および通知できること。その履歴を蓄積して後から確認できること。

Computer Weekly発 世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

製品資料 株式会社ネットワールド

すぐ役立つ&初めてでも安心 「NetAppの教科書」決定版

データ環境の急変は、企業のストレージ課題を複雑化させている。性能や拡張性、データ保護、分散環境の一元管理、コスト最適化など、自社の課題に合わせた製品・サービスをどう見つければよいのか。それに役立つ製品ガイドを紹介したい。

技術文書・技術解説 エフサステクノロジーズ株式会社

フラッシュアレイ選びのヒント:最小限のダウンタイムでデータ移行できる製品は

フラッシュアレイ導入を検討する際、既存のリモートストレージデバイスからのデータインポートは気になる点の1つだ。そこで本資料では、最小限のダウンタイムでデータ移行できるフラッシュアレイ/ハイブリッドアレイ製品を紹介する。

製品資料 エフサステクノロジーズ株式会社

初級解説:中小規模向け「フルSSD」&「ハイブリッドストレージ」の実力

近年、企業に蓄積されるデータが爆発的に増加しており、新たなストレージシステムへのニーズが高まっている。そこで、中小規模のニーズをカバーする、フルSSDおよびSSD/HDDハイブリッドのシンプルなブロックストレージを紹介する。

製品資料 エフサステクノロジーズ株式会社

解説:SAN専用オールフラッシュアレイ、99.9999%の高可用性を支える技術とは?

近年のSANストレージには、データの保護と可用性を確保することが求められている。そこで登場したのが、SAN専用のオールフラッシュアレイだ。本資料では、99.9999%を超える高可用性を実現する同ストレージの実力を紹介する。

製品資料 エフサステクノロジーズ株式会社

ストレージ専用OSでどれだけ変わる? データの高速処理や保護に見逃せない違い

ビジネスの成否を左右する要素として、データの重要性がかつてないほど高まっている。これに伴い、データ基盤としてのストレージの役割も一層注目されている。本資料では、多様かつ高度なニーズに応え得るストレージ製品の特徴を紹介する。

アイティメディアからのお知らせ

From Informa TechTarget

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ

「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...