NASやSANではなく「オブジェクトストレージ」が“AI時代の主役”に躍り出る?生成AIの台頭で変わるストレージ市場

大量のデータを扱うAI活用プロジェクトでは、ストレージの選定が重要な要素の一つになる。企業はNAS、SAN、オブジェクトストレージといった選択肢から最適なストレージを選択することが求められている。

2025年07月11日 07時15分 公開
[Stephen PritchardTechTarget]

 大規模言語モデル(LLM)をはじめとする生成AI(AI:人工知能)の導入が進む中、企業はAIモデルの学習データだけでなく、AIモデルの出力データも管理する必要がある。

 大量のデータを扱う生成AIの導入プロジェクトでは、システム全体のストレージ戦略を見直すことが不可欠だ。特に、ストレージエリアネットワーク(SAN)、ネットワーク接続ストレージ(NAS)、オブジェクトストレージなど、多様なストレージ方式の中から最適なものを選択することが重要な課題となっている。

 本稿は、各ストレージの特徴を整理するとともに、生成AIの業務活用が広がる中でストレージ要件がどのように変わっていくのかを考察する。

NASやSANではなく「オブジェクトストレージ」が主流になるのか?

 生成AIの導入プロジェクトで扱う大量のデータが1カ所に集約されていることはまれだ。データベースに格納された構造化データだけでなく、文書、画像、音声などの非構造化データを含む複数のデータソースから横断的にデータを取得することになる。これらのデータは、オンプレミス環境とクラウド環境の双方に分散して存在していることがほとんどだ。

 特にLLMの性能は、学習データの量と多様性に左右されるため、自社が保有するさまざまな業務データをLLMと連携させ、回答の精度や自社業務への関連性を高めようとする動きが加速している。このようなデータには、文書ファイルに加え、業務アプリケーションが利用するリレーショナルデータベース(RDB)内の構造化データも含まれる。

 これらのデータをどこに保存し、どうアクセスするかは、生成AIの導入プロジェクトにおける重要な検討事項の一つだ。最も単純な方法は、既存のストレージにあるデータをそのまま活用することだが、以下のような理由から常に可能とは限らない。

  • データの前処理をする必要がある
  • AIアプリケーションを本番システムから隔離して運用する必要がある
  • 既設ストレージのスループットでは、AIモデルの処理要件を満たせない

 ベクトル化によるデータ量の急増も無視できない要因だ。ベクトル化とは、文書や画像、音声などのデータを、AIが処理できるように数値(ベクトル)に変換する処理を指す。場合によっては、この処理によってデータ量が10倍以上に膨れ上がることもあるため、スケーラビリティ(拡張性)を備えたストレージが求められる。

 AI活用のフェーズによって求められるストレージ性能も異なる。学習フェーズでは、前処理されていない大量のローデータ(生データ)を高速に取り込む必要がある。推論フェーズでは、扱うデータ量は学習フェーズほど多くないものの、レイテンシやスループットの値がパフォーマンスを左右する。特に学習段階では、ストレージ間でデータを移行する際に発生するオーバーヘッド(転送負荷や遅延)が、パフォーマンスとコストにどの程度影響を与えるかを慎重に見極める必要がある。

NASとSAN、どちらにデータを置くか

 一般的に、企業は非構造化データをNASに保存する傾向がある。NASは導入や拡張が比較的容易でコスト効率にも優れ、DAS(直接接続型ストレージ)に比べて扱いやすいという特長がある。

 一方、構造化データはブロックストレージであるSANに保存されるのが一般的だ。ERP(統合基幹業務システム)やCRM(顧客関係管理)などの業務アプリケーションでは、データベースファイルをSANまたはDASに配置しているケースが多い。小規模なAIプロジェクトであれば、DASでも要件を満たせることがある。実際のAIプロジェクトでは、NASとSANの両方からデータを読み込む構成が一般的となっている。

 ストレージベンダーStorMagicでチーフプロダクトオフィサーを務めるブルース・コーンフェルド氏は、「重要なのは、AIモデルがデータへアクセスする方法だ」と指摘する。例えば、データをSANに保存しても、AIモデルがブロック単位でデータを読み込めるとは限らない。多くの場合、AIモデルがブロックストレージ内のデータにアクセスする際は、ファイルアクセスプロトコルを介して処理する。

 どのストレージが最適かは、扱うデータの種類や求められる処理性能によって異なる。文書や画像など比較的負荷の小さいデータを扱うAIシステムの場合、NASで十分な性能を確保できることがある。自動運転やリアルタイム監視などの高性能が求められるアプリケーションは、SANなど高速なストレージが適している。

オブジェクトストレージという選択肢

 AIプロジェクトにおける大規模データの保存基盤として注目を集めているのがオブジェクトストレージだ。従来はクラウドでの利用が中心だったが、近年ではオンプレミス環境への導入も拡大している。

 オブジェクトストレージは以下のような特性を持つ。

  • シンプルな構造
    • ファイル階層を持たず、全てのデータグローバル名前空間で一元的に管理する。
  • 管理が容易
    • 複雑なパスやフォルダ構成の管理が不要。
  • スケーラビリティの高さ
    • 物理ストレージを意識せずに、容量を柔軟に拡張できる。
  • 低コスト
    • 大容量データを長期保存するユースケースに適しており、アーカイブ用途などにも強みを発揮する。

 ただし、オブジェクトストレージはこれまで、スループットやレイテンシといった性能面で課題があるとされていた。そのためリアルタイム性や高速処理が求められるAIアプリケーションには不向きとされ、主にバックアップやアーカイブなどの用途で使われてきた

 しかし近年では、こうした制約を克服するストレージ製品や技術が登場している。例えば、Pure Storageの「FlashBlade」やNetAppの「ONTAP」搭載製品は、オブジェクト形式以外にも複数のデータアクセスに対応している。1つのストレージから複数のアクセス方法を使い分けることで、用途に応じて効率よくデータを扱えるようになった。

 Hammerspaceの「Hyperscale NAS」のように、ファイル共有システムNFS(Network File System)でアクセスするストレージでも高いスループットを実現できる製品も開発されている。

AI時代におけるストレージの在り方とは

 生成AIの導入プロジェクトにおいては、NASやSAN、オブジェクトストレージ、DASを組み合わせて活用するのが現実的なアプローチとなる。ただし、どのストレージをどう使い分けるかという判断は、AI活用のフェーズや、AI開発ツールの進化に応じて変化する可能性がある。

 スミス氏によると、非構造化データ向けのストレージ基盤に対するニーズは明らかに高まっている。一方で、ブロックストレージやベクトルデータベースに関しては、既存のハードウェア構成で多くの企業が十分に対応できている状況だという。

 「生成AIにとって重要なのは、データ間の“意味的な関係性”を正しく捉えることだ」とスミス氏は説明する。生成AIの理解の土台となるのが、文書、画像、音声、ソースコードといった非構造化データで、これは通常、ファイル形式やオブジェクト形式で保存されている。そこから生成されるベクトルデータは、高速な読み書きが必要になるため、主にブロックストレージに格納される。「つまり、AIのワークフロー全体では、非構造化データからベクトルデータという処理段階に応じて、異なるストレージ形式が適材適所で使われているということだ」(同氏)

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

From Informa TechTarget

なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか

なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...