「GPUが待ちぼうけ」の悪夢を防げ AIストレージベンダー7選:ボトルネックを解消する「最適解」のヒント
高価なGPUを導入しても、ストレージの性能が低くて処理待ちが発生すれば、投資の意味が薄れてしまう。AIプロジェクトを失敗させる「データ供給不足」を解消し得る、主要ストレージベンダー7社とその製品を解説する。
AI(人工知能)プロジェクトを進めるために高価なGPU(グラフィックス処理装置)を導入したのに、期待した学習速度が出ないという“悲鳴”が、企業からたびたび聞こえるようになった。この場合、原因は往々にしてGPUではなく、足回りの「ストレージ」にある。
AIワークロード(AI関連処理)、特に大規模言語モデル(LLM)の学習や推論においては、従来のファイルサーバや汎用(はんよう)ストレージでは実現できないほどの超高速なデータ供給能力(スループット)と低レイテンシ(遅延)が求められる。ストレージがボトルネックになり、高額なGPUが「データ待ち」状態になることは、経営的な観点から見れば予算の無駄遣いだと言える。
こうした状況を受け、さまざまなストレージベンダーが企業のAIワークロードに最適化した製品やサービスの開発を急いでいる。本稿はAIプロジェクトに取り組む企業が参考にできる、主要ストレージベンダー7社の製品の特徴を解説する。
Amazon Web Services(AWS)
併せて読みたいお薦め記事
AI推進で変わるストレージ市場
「Amazon FSx for Lustre」は、ハイパフォーマンスコンピューティング(HPC)やAIモデルの学習、推論といった、高速かつ拡張性が求められる用途向けに設計されたオープンソースファイルシステム「Lustre」を、フルマネージドサービスとして提供するものだ。ストレージとしてSSDを採用したり、キャッシュ機能を活用することによって、レイテンシ(遅延)を抑えることができる。
AWS独自のネットワークインタフェース「Elastic Fabric Adapter」(EFA)や、データをGPUに直接転送するNVIDIAの技術「GPUDirect Storage」を併用することで、クラウドサービスでAI処理を実行するサーバ(GPUインスタンス)1台当たりのデータ転送速度を最大1200Gbpsまで高めることが可能だ。データの読み込み、推論処理、長時間のAIモデルの学習結果を定期的に保存する「チェックポイント」の作成、LLMが計算結果を再利用して応答性を早めるための「KVキャッシュ」(Key-Value Cache)などの処理を高速化する。
Dell Technologies
Dell Technologiesの「PowerScale」は、ファイルストレージとオブジェクトストレージを一元化したオールフラッシュストレージだ。複数のアクセスを同時に処理する並列アクセスや、ファイルとオブジェクトなど異なる形式でデータを扱えるマルチプロトコルを利用できる。AI関連サービス群ともシームレスに連携可能だ。PowerScaleは、同社のAIインフラ製品群「Dell AI Data Platform」の一部であり、NVIDIAとの緊密な協力の下、GPUの演算能力を最大限に引き出すよう設計されている。
オールフラッシュのオブジェクトストレージ「ObjectScale」は、大規模なデータ収集やAIモデルの学習に適する。E(エクサ)B規模のデータを格納できる設計(エクサスケールアーキテクチャ)を採用しており、高速なデータの読み書きを実現する。AI処理に必要なデータ操作を、API(アプリケーションプログラミングインタフェース)を通じて実行できる点が特徴だ。
DataDirect Networks(DDN)
「DDN EXAScaler」は、HPCやAI処理などの膨大なデータを扱うワークロードを高速化する並列ファイルシステムだ。データの管理や整合性を保つ機能を備え、アプライアンスまたはクラウドサービスとして提供されている。
DDN EXAScalerは「ホットノード機能」を搭載しており、AI処理を実行するGPUサーバに内蔵されたNVMe(Non-Volatile Memory Express)ドライブに自動でデータをキャッシュすることで、アクセス速度を向上させる。ポリシー設定や外部プログラムからの指示に基づいて、読み書きが高速なSSDとデータの長期保存に適した大容量ストレージの間でデータを自動的に移動、配置する「ホットプール機能」も備えている。
Hewlett Packard Enterprise(HPE)
「HPE Alletra Storage MP X10000」は、AI処理などのデータを大量に扱うワークロードに向けたエンタープライズグレードのオブジェクトストレージだ。データを処理する計算機能と、データを保存する記憶領域を個別に拡張できる分離型アーキテクチャを採用しており、TBからEB規模まで容量を拡張できる。
記憶媒体にSSDを採用したオールフラッシュ構成によって、生成AIやLLMの運用に不可欠な処理性能と容量を両立させる。オンプレミスシステムとクラウドサービスの両構成に適合するよう設計されており、従量課金型インフラサービス「HPE GreenLake」のWeb管理コンソールから一元的に管理可能だ。
NetApp
NetAppの「AIPod」は、Lenovo製サーバ、NVIDIAのAIインフラ「NVIDIA DGX BasePOD」、NetAppのデータ管理用OS「ONTAP」を搭載したオールフラッシュストレージを組み合わせた、垂直統合型(コンバージド)インフラだ。クラウドサービスとオンプレミスシステムをまたいで、大規模かつ多様なデータを扱えるデータ管理システムを実現する。
AIPodではファイル、ブロック、オブジェクトといった主要なデータアクセス方式を利用でき、MLOps(機械学習による運用)ツール、企業独自の開発フローや業務プロセスとの連携も容易だ。AIアプリケーション開発ソフトウェア群「NVIDIA AI Enterprise」に加え、データ管理ツール「NetApp BlueXP」「NetApp AI Control Plane」、インフラ管理自動化ツール「NetApp DataOps Toolkit」を組み合わせることで、AIアプリケーションの開発、運用ワークフローを確立できる。
Pure Storage
Pure Storageは、NVIDIA AI Data Platformのレファレンスデザイン(標準設計)を自社のストレージ製品「FlashBlade」に適用し、最適化した。NVIDIAのアクセラレーテッドコンピューティングやネットワーク技術を活用することで、AIモデルの推論に必要な処理速度を実現している。
2025年3月には、データの収集から学習、推論といった一連の流れ(AIパイプライン)全体を支える「FlashBlade//EXA」が発表された。P(ペタ)BからEBまでの規模で拡張可能なオブジェクトストレージであり、最大で毎秒10TB以上のデータ転送が可能だ。
Weka.io
Weka.ioの「NeuralMesh」は、大規模なAIワークロードに特化したソフトウェア定義型ストレージだ。マイクロサービスアーキテクチャを採用し、コンテナに最適化されたストレージサービスを提供する。
NeuralMeshの中核となる完全分散型の並列ファイルシステムは、規模が拡大するほど性能効率が高まるリニアな拡張性を持つ。x86(IntelのCPUが起源の命令セットアーキテクチャ)系プロセッサを搭載したサーバで動作し、オンプレミス、クラウド、ハイブリッドクラウドのいずれの構成でも利用できる。AIモデルの推論やAIエージェント、AIOps(AI技術による運用)といった多様な用例を、単一システムで実現できる点が強みだ。
その他のストレージ関連ベンダー
AIワークロードが抱える課題解決に取り組んでいるのは、これらのベンダーだけではない。他にもさまざまなベンダーがAI関連のポートフォリオを拡充している。以下はその例だ。
- ストレージシステム
- Atlas Data Storage
- Nutanix
- Scality
- Seagate Technology
- Super Micro Computer
- VAST Data
- Wasabi Technologies
- クラウドサービス
- Microsoft
- Constant Company(ブランド名Vultrで事業展開)
- コンポーネント
- キオクシア
- Micron Technology
- Samsung Electronics
- Silicon Motion Technology
企業のAI活用が進むにつれて、AIストレージ市場はダイナミックな成長を続けている。本格的なAI活用を目指す企業は、自社のインフラが低レイテンシを要するアプリケーションの負荷に耐えられるかどうかを確認すべきだ。その際、本稿で紹介した専用ツールを提供するベンダーの動向を把握しておくことは、適切な判断の近道になる。
Copyright © ITmedia, Inc. All Rights Reserved.