検索
特集/連載

「GPUが待ちぼうけ」の悪夢を防げ AIストレージベンダー7選ボトルネックを解消する「最適解」のヒント

高価なGPUを導入しても、ストレージの性能が低くて処理待ちが発生すれば、投資の意味が薄れてしまう。AIプロジェクトを失敗させる「データ供給不足」を解消し得る、主要ストレージベンダー7社とその製品を解説する。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | HPC | ストレージ


 AI(人工知能)プロジェクトを進めるために高価なGPU(グラフィックス処理装置)を導入したのに、期待した学習速度が出ないという“悲鳴”が、企業からたびたび聞こえるようになった。この場合、原因は往々にしてGPUではなく、足回りの「ストレージ」にある。

 AIワークロード(AI関連処理)、特に大規模言語モデル(LLM)の学習や推論においては、従来のファイルサーバや汎用(はんよう)ストレージでは実現できないほどの超高速なデータ供給能力(スループット)と低レイテンシ(遅延)が求められる。ストレージがボトルネックになり、高額なGPUが「データ待ち」状態になることは、経営的な観点から見れば予算の無駄遣いだと言える。

 こうした状況を受け、さまざまなストレージベンダーが企業のAIワークロードに最適化した製品やサービスの開発を急いでいる。本稿はAIプロジェクトに取り組む企業が参考にできる、主要ストレージベンダー7社の製品の特徴を解説する。

Amazon Web Services(AWS)

 「Amazon FSx for Lustre」は、ハイパフォーマンスコンピューティング(HPC)やAIモデルの学習、推論といった、高速かつ拡張性が求められる用途向けに設計されたオープンソースファイルシステム「Lustre」を、フルマネージドサービスとして提供するものだ。ストレージとしてSSDを採用したり、キャッシュ機能を活用することによって、レイテンシ(遅延)を抑えることができる。

 AWS独自のネットワークインタフェース「Elastic Fabric Adapter」(EFA)や、データをGPUに直接転送するNVIDIAの技術「GPUDirect Storage」を併用することで、クラウドサービスでAI処理を実行するサーバ(GPUインスタンス)1台当たりのデータ転送速度を最大1200Gbpsまで高めることが可能だ。データの読み込み、推論処理、長時間のAIモデルの学習結果を定期的に保存する「チェックポイント」の作成、LLMが計算結果を再利用して応答性を早めるための「KVキャッシュ」(Key-Value Cache)などの処理を高速化する。

Dell Technologies

 Dell Technologiesの「PowerScale」は、ファイルストレージとオブジェクトストレージを一元化したオールフラッシュストレージだ。複数のアクセスを同時に処理する並列アクセスや、ファイルとオブジェクトなど異なる形式でデータを扱えるマルチプロトコルを利用できる。AI関連サービス群ともシームレスに連携可能だ。PowerScaleは、同社のAIインフラ製品群「Dell AI Data Platform」の一部であり、NVIDIAとの緊密な協力の下、GPUの演算能力を最大限に引き出すよう設計されている。

 オールフラッシュのオブジェクトストレージ「ObjectScale」は、大規模なデータ収集やAIモデルの学習に適する。E(エクサ)B規模のデータを格納できる設計(エクサスケールアーキテクチャ)を採用しており、高速なデータの読み書きを実現する。AI処理に必要なデータ操作を、API(アプリケーションプログラミングインタフェース)を通じて実行できる点が特徴だ。

DataDirect Networks(DDN)

 「DDN EXAScaler」は、HPCやAI処理などの膨大なデータを扱うワークロードを高速化する並列ファイルシステムだ。データの管理や整合性を保つ機能を備え、アプライアンスまたはクラウドサービスとして提供されている。

 DDN EXAScalerは「ホットノード機能」を搭載しており、AI処理を実行するGPUサーバに内蔵されたNVMe(Non-Volatile Memory Express)ドライブに自動でデータをキャッシュすることで、アクセス速度を向上させる。ポリシー設定や外部プログラムからの指示に基づいて、読み書きが高速なSSDとデータの長期保存に適した大容量ストレージの間でデータを自動的に移動、配置する「ホットプール機能」も備えている。

Hewlett Packard Enterprise(HPE)

 「HPE Alletra Storage MP X10000」は、AI処理などのデータを大量に扱うワークロードに向けたエンタープライズグレードのオブジェクトストレージだ。データを処理する計算機能と、データを保存する記憶領域を個別に拡張できる分離型アーキテクチャを採用しており、TBからEB規模まで容量を拡張できる。

 記憶媒体にSSDを採用したオールフラッシュ構成によって、生成AIやLLMの運用に不可欠な処理性能と容量を両立させる。オンプレミスシステムとクラウドサービスの両構成に適合するよう設計されており、従量課金型インフラサービス「HPE GreenLake」のWeb管理コンソールから一元的に管理可能だ。

NetApp

 NetAppの「AIPod」は、Lenovo製サーバ、NVIDIAのAIインフラ「NVIDIA DGX BasePOD」、NetAppのデータ管理用OS「ONTAP」を搭載したオールフラッシュストレージを組み合わせた、垂直統合型(コンバージド)インフラだ。クラウドサービスとオンプレミスシステムをまたいで、大規模かつ多様なデータを扱えるデータ管理システムを実現する。

 AIPodではファイル、ブロック、オブジェクトといった主要なデータアクセス方式を利用でき、MLOps(機械学習による運用)ツール、企業独自の開発フローや業務プロセスとの連携も容易だ。AIアプリケーション開発ソフトウェア群「NVIDIA AI Enterprise」に加え、データ管理ツール「NetApp BlueXP」「NetApp AI Control Plane」、インフラ管理自動化ツール「NetApp DataOps Toolkit」を組み合わせることで、AIアプリケーションの開発、運用ワークフローを確立できる。

Pure Storage

 Pure Storageは、NVIDIA AI Data Platformのレファレンスデザイン(標準設計)を自社のストレージ製品「FlashBlade」に適用し、最適化した。NVIDIAのアクセラレーテッドコンピューティングやネットワーク技術を活用することで、AIモデルの推論に必要な処理速度を実現している。

 2025年3月には、データの収集から学習、推論といった一連の流れ(AIパイプライン)全体を支える「FlashBlade//EXA」が発表された。P(ペタ)BからEBまでの規模で拡張可能なオブジェクトストレージであり、最大で毎秒10TB以上のデータ転送が可能だ。

Weka.io

 Weka.ioの「NeuralMesh」は、大規模なAIワークロードに特化したソフトウェア定義型ストレージだ。マイクロサービスアーキテクチャを採用し、コンテナに最適化されたストレージサービスを提供する。

 NeuralMeshの中核となる完全分散型の並列ファイルシステムは、規模が拡大するほど性能効率が高まるリニアな拡張性を持つ。x86(IntelのCPUが起源の命令セットアーキテクチャ)系プロセッサを搭載したサーバで動作し、オンプレミス、クラウド、ハイブリッドクラウドのいずれの構成でも利用できる。AIモデルの推論やAIエージェント、AIOps(AI技術による運用)といった多様な用例を、単一システムで実現できる点が強みだ。

その他のストレージ関連ベンダー

 AIワークロードが抱える課題解決に取り組んでいるのは、これらのベンダーだけではない。他にもさまざまなベンダーがAI関連のポートフォリオを拡充している。以下はその例だ。

  • ストレージシステム
    • Atlas Data Storage
    • Nutanix
    • Scality
    • Seagate Technology
    • Super Micro Computer
    • VAST Data
    • Wasabi Technologies
  • クラウドサービス
    • Google
    • Microsoft
    • Constant Company(ブランド名Vultrで事業展開)
  • コンポーネント
    • キオクシア
    • Micron Technology
    • Samsung Electronics
    • Silicon Motion Technology

 企業のAI活用が進むにつれて、AIストレージ市場はダイナミックな成長を続けている。本格的なAI活用を目指す企業は、自社のインフラが低レイテンシを要するアプリケーションの負荷に耐えられるかどうかを確認すべきだ。その際、本稿で紹介した専用ツールを提供するベンダーの動向を把握しておくことは、適切な判断の近道になる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る