Meta(旧Facebook)の自前スパコン「RSC」は何のハードを使っているのか?:Metaが手掛けるスパコン開発【第2回】
Meta Platformsが開発したスーパーコンピュータ「AI Research SuperCluster」(RSC)は、同社のこれまでのシステムとどう違うのか。どのようなハードウェアで構成されているのか。
Meta Platforms(旧Facebook)は人工知能(AI)システム向けスーパーコンピュータ「AI Research SuperCluster」(RSC)を開発し、自社のサービス強化に取り組んでいる。
これまでMetaが使用していたシステムは、従来型のGPU(画像処理装置)クラスタを採用していた。GPUクラスタは、GPUを搭載したコンピュータ群から成るクラスタだ。「RSCによって、同社は大規模な次世代GPUクラスタを手に入れることになる」と、調査会社Gartnerでアナリストを務めるチラーグ・デケイト氏は指摘する。
MetaのAIスパコン「RSC」を構成するサーバ、ネットワーク、ストレージ製品
併せて読みたいお薦め記事
連載:Metaが手掛けるスパコン開発
メタバース市場への期待
- メタバースは“おもちゃ”じゃない Microsoft、Metaは「仕事向け」で勝負
- 「メタバース」はWeb会議を超えるか? MetaやMicrosoft、Ciscoが熱視線
- 「ビジネス用メタバース」を始めたFacebook改めMetaは、何を考えているのか?
「重要なのは、RSCが優れたGPU技術を組み合わせて使用していることだ」とデケイト氏は指摘する。RSCによって、Metaは「多様な使い方が可能なサービスやシステムの構築が可能になる」と同氏は考える。
2022年1月時点で、RSCはGPU搭載サーバ「NVIDIA DGX A100」760台から成り、計6080基のGPUを内包する。これらのGPUは、スイッチ「NVIDIA Quantum-2 InfiniBand」を使用して、通信速度200Gbpsのネットワーク経由で通信する。
RSCのストレージの構成および容量は以下の通りだ。
- Pure Storageのオールフラッシュアレイ「FlashArray」、容量175P(ペタ)B
- Penguin Computingのサーバ「Altus」、容量46PB
- Pure Storageのオールフラッシュアレイ「FlashBlade」、容量10PB
ハードウェア性能の評価は上々?
RSCは、Metaが使用している旧世代のデータセンターと比較して、さまざまな処理を高速に実行できるようになったという。Metaが実施したテストでは、
- コンピュータビジョン(コンピュータによる画像認識)関連処理
- GPU(グラフィックスプロセッシングユニット)通信用のライブラリ(プログラム部品群)「NVIDIA Collective Communication Library」(NCCL)を用いたテスト
- 大規模なNLPモデルのトレーニング
といった処理の実行速度を向上できた。
2022年1月時点のMetaでは、何十億個ものパラメーターを含む機械学習モデルのトレーニングに9週間かかっている。一方RSCでは、そのAIモデルのトレーニングが3週間で完了するとMetaは説明する。
運用環境ではテストされていないものの、公表時点でのRSCのコア数や通信速度などのスペックは、世界最速クラスのスーパーコンピュータに比肩する。「2022年中に計画通り完成した暁には、RSCは『世界最速のAIスーパーコンピュータ』になる」とMetaは主張する。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.