検索
特集/連載

Meta(旧Facebook)の自前スパコン「RSC」は何のハードを使っているのか?Metaが手掛けるスパコン開発【第2回】

Meta Platformsが開発したスーパーコンピュータ「AI Research SuperCluster」(RSC)は、同社のこれまでのシステムとどう違うのか。どのようなハードウェアで構成されているのか。

Share
Tweet
LINE
Hatena

関連キーワード

データ | データ分析 | サーバ


 Meta Platforms(旧Facebook)は人工知能(AI)システム向けスーパーコンピュータ「AI Research SuperCluster」(RSC)を開発し、自社のサービス強化に取り組んでいる。

 これまでMetaが使用していたシステムは、従来型のGPU(画像処理装置)クラスタを採用していた。GPUクラスタは、GPUを搭載したコンピュータ群から成るクラスタだ。「RSCによって、同社は大規模な次世代GPUクラスタを手に入れることになる」と、調査会社Gartnerでアナリストを務めるチラーグ・デケイト氏は指摘する。

MetaのAIスパコン「RSC」を構成するサーバ、ネットワーク、ストレージ製品

 「重要なのは、RSCが優れたGPU技術を組み合わせて使用していることだ」とデケイト氏は指摘する。RSCによって、Metaは「多様な使い方が可能なサービスやシステムの構築が可能になる」と同氏は考える。

 2022年1月時点で、RSCはGPU搭載サーバ「NVIDIA DGX A100」760台から成り、計6080基のGPUを内包する。これらのGPUは、スイッチ「NVIDIA Quantum-2 InfiniBand」を使用して、通信速度200Gbpsのネットワーク経由で通信する。

 RSCのストレージの構成および容量は以下の通りだ。

  • Pure Storageのオールフラッシュアレイ「FlashArray」、容量175P(ペタ)B
  • Penguin Computingのサーバ「Altus」、容量46PB
  • Pure Storageのオールフラッシュアレイ「FlashBlade」、容量10PB

ハードウェア性能の評価は上々?

 RSCは、Metaが使用している旧世代のデータセンターと比較して、さまざまな処理を高速に実行できるようになったという。Metaが実施したテストでは、

  • コンピュータビジョン(コンピュータによる画像認識)関連処理
  • GPU(グラフィックスプロセッシングユニット)通信用のライブラリ(プログラム部品群)「NVIDIA Collective Communication Library」(NCCL)を用いたテスト
  • 大規模なNLPモデルのトレーニング

といった処理の実行速度を向上できた。

 2022年1月時点のMetaでは、何十億個ものパラメーターを含む機械学習モデルのトレーニングに9週間かかっている。一方RSCでは、そのAIモデルのトレーニングが3週間で完了するとMetaは説明する。

 運用環境ではテストされていないものの、公表時点でのRSCのコア数や通信速度などのスペックは、世界最速クラスのスーパーコンピュータに比肩する。「2022年中に計画通り完成した暁には、RSCは『世界最速のAIスーパーコンピュータ』になる」とMetaは主張する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る