AIインフラはGPUだけじゃない ネットワークに必要な「3つの要素」:AIに必要なネットワーク【前編】
さまざまな企業がAI技術を利用するようになった。プロセッサの性能が重要なのと同様に、ネットワークの性能もAI技術の処理に直結する。
AI(人工知能)技術の台頭を受けて、AIワークロード(AI技術を組み込んだシステム)とその学習に使用するデータを処理するための、強力で効率的なネットワークが重要となっている。AIワークロードを効率的に処理するには、一般的なデータセンターとは異なるネットワークが必要だ。主に3つの要素を考慮する必要がある。
AIに必要な「ネットワークの3つの要素」とは
AIワークロードを効率的に処理するネットワークには以下が求められる。
低レイテンシと高スループット
AI技術による学習や推論の過程では、膨大なデータがネットワークを通じて頻繁に移動するため、ネットワークの性能が処理能力に直接影響を与える。そのため通常のワークロードよりも低いレイテンシ(遅延)と高速なスループット(実際の転送されるデータ量)が求められる。
水平方向への拡張性
学習データは、ネットワークで相互接続された複数のサーバおよびGPU(グラフィックス処理装置)で同時に処理するため、必要なネットワーク接続の数は一般的なデータセンターのワークロードの何倍にもなることがある。ネットワークアーキテクチャとしては、水平方向にネットワークスイッチを拡張していく形になる。ネットワークスイッチには、全てのポートで仕様通りの帯域幅が使える「ノンブロッキングスイッチ」であることが求められる。
信頼性
AIワークロードは膨大なリソースとデータを扱うため、ネットワークの停止や処理性能の低下はコストを考慮すると可能な限り防ぐのが望ましい。計算処理にも一定の時間を要するため、ネットワークに障害が発生しにくい信頼性も求められる。
ネットワークのトラブルは手動で設定作業をしている時に発生しがちだ。AIワークロード向けネットワークの運用においては、可能な限り人手による作業を排除する。レジリエント(耐障害性が高い)かつ、トラブルが起きても復旧に時間を可能な限り必要としない設計が求められる。
AIワークロードをサポートするために、ネットワークエンジニアはこれらの特有の要件を満たすようにネットワークを設計する必要がある。プロトコルやアーキテクチャ、ネットワーク管理ツールも従来とは違う視点で考えるべきだ。
次回は実際にAIワークロードを処理するためのネットワークを設計する時のポイントを解説する。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.