検索
特集/連載

HDDでAIはもう動かない? “100TB超えSSD”が必要になる理由AIに欠かせないSSD【前編】

AI技術が普及するにつれてデータ量は爆発的に増加しており、企業はそのデータを効率的に扱う方法を求めている。従来のHDDでは対処し切れないこの問題に、NAND型フラッシュメモリベンダーはどう立ち向かうのか。

Share
Tweet
LINE
Hatena

関連キーワード

SSD | 半導体ストレージ | 人工知能


 今日の人工知能(AI)関連の技術は、あらゆるものが大規模化している。AIモデルの学習データを格納するSSDも例外ではない。2024年を通じてキオクシア、Micron Technology、Samsung Electronics、SK hynixといったNAND型フラッシュメモリベンダー、Western Digital(2025年2月にフラッシュメモリ事業をSandiskに分社化)が、SSD製品の大容量化を加速させた。

 これほど大容量のSSDが求められる理由は、データの転送路容量(帯域幅)にあるわけではない。AIモデルが扱う巨大なデータセットを格納できる容量と、HDDをはるかに上回る応答速度(レイテンシ)が重要視されているのだ。

なぜAIブームで「大容量SSD」が盛り上がるのか

 近年のWestern Digitalにとって、ハイパースケーラー(大規模データセンター事業者)は収益の柱となっている。データセンター市場の成長と大規模なAIシステムの登場は、同社が提供するHDDの平均容量に大きな影響を与えてきた。

 ハイパースケーラーは可能な限り大容量のHDDを大量に調達しているが、さらなる処理速度を追求するために、ストレージとしてSSDを追加し始めている。SSDはHDDと同様に、小さなスペースに大容量を詰め込むことに長けている上、連続したデータの読み出しにおいて、HDDよりもはるかに優れた応答速度を実現する。ハイパースケーラーはSSDにも極めて大きな容量を求めており、NAND型フラッシュメモリはその要求を実現する技術だ。

 大容量SSDに関する取り組みの例として、Meta Platformsが2025年3月に公開した報告書が挙げられる。同社はアクセス頻度の低いデータを保存するニアラインストレージを対象に、1つのメモリセルに4bitを格納するQLC(クアッドレベルセル)方式のNAND型フラッシュメモリを搭載したSSDと、従来のHDDを、費用、性能、電力効率の観点で比較した。その結果に基づいて、同社はデータストレージの構成を最適化する新たなアプローチを提案している。具体的には、アクセス頻度が比較的高い、既存のTLC(トリプルレベルセル)方式のSSDと、大容量だが低速なHDDの間に、大容量のQLC方式SSDで構成された新たなストレージ層を設けるというものだ。TLCは、1つのメモリセルに3bitを格納する方式を指す。

 データセンターは、ハードウェアの設置スペースと消費電力に関する懸念を常に抱えている。QLC方式のNAND型フラッシュメモリは、より多くのデータを少ないチップ数で記録できるため、省スペース化と消費電力の最小化を実現する手段として期待されている。

どれほどの容量が必要か

 ベンダーが提唱する大容量SSDとは、具体的にはどの程度の容量なのか。Sandiskが2025年2月に示したロードマップによると、2027年までに128TB、256TB、512TBのSSDが登場し、将来的には1P(ペタ)BのSSDも実現するとの予測がある。同社が同年8月に示したロードマップではさらに情報が追加され、128TBおよび256TBのSSDが2026年前半にも登場することが明らかになった。

 これほどの容量が必要なのかと感じる人もいるだろうが、LLM(大規模言語モデル)の学習用データセットは驚異的な速さで増加している。カリフォルニア大学バークレー校(University of California, Berkeley)の研究者は、論文「AI and Memory Wall」の中で、大規模な「Transformer」モデルのパラメータ数(AIモデルの複雑さを示す指標)が、2018年から2022年にかけて2年間ごとに410倍という驚異的なペースで増加していることを指摘した。Transformerは、文章中の単語間の関係性を効率的に捉えることができるAIモデルの構造で、LLMの基盤技術として広く利用されている。

 この傾向が続けば、大規模Transformerモデルのパラメータ数は2025年までに1京に達することが見込まれる。各パラメータが4バイトを使用すると仮定すると、総データ量は40PBに上る。これは128TBのSSDが300台以上必要になる計算だ。AIモデル学習の途中経過を保存するチェックポイント作成や一時的なデータ保存といったタスクを実行するために、実際にはさらに多くのSSDが必要になる。

 巨大なAIモデルを実行するシステムの数だけ、このようなSSD群が必要になると考えると、用意すべきストレージの規模は計り知れない。一方でSandiskが示すロードマップは、SSDの容量が倍増するペースは1年あるいは2年ごとであり、2年間で410倍というAIモデルのパラメータ数の増加ペースには及ばない。AIシステムの構築担当者は、SSDの台数、費用、電力使用量が指数関数的に膨れ上がるのを避けたければ、AIモデルのサイズを削減する方法を見つける必要がある。

価格はどうなるのか

 128TBのSSDは、どのくらいの価格で販売されるのだろうか。HBM(広帯域メモリ)のように、異なる種類の半導体を積層して超小型パッケージに収めるための特殊な製造プロセスではなく、大容量SSDは既存のNAND型フラッシュメモリを垂直方向に積層する技術の延長線上で製造できると考えられている。そのため、小容量SSDの価格を基に単純に掛け合わせて試算すれば、ある程度妥当な数値が得られる。

 128TBのSSDは安価ではないことは容易に想像がつく。しかし、特にハイパースケーラーにとっては、初期費用を上回る価値を持つ可能性がある。HDDをSSDに置き換えることによって、データセンターのラックスペースや消費電力、冷却にかかる費用を大きく削減できる見込みがあるためだ。結果として、システムのTCO(総所有コスト)を削減するコストモデルに適合するため、非常に魅力的な選択肢になる。

物理的なサイズ

 Meta Platformsは先述の報告書で、現在主流の2T(テラ)bitのQLC方式NAND型フラッシュメモリチップを32個積層した「32ダイスタック」パッケージを使用すれば、QLC方式の大容量SSDを製造できると説明している。NAND型フラッシュメモリのメーカーはこれまで、数GBの容量をmicroSDメモリカードのサイズに収めるために、同等かそれ以下の積層技術を使用してきたため、これは新しい技術ではない。

 100TBのSSDを実現するには、2TbitのNAND型フラッシュメモリチップが400個以上必要になる。しかし、Meta Platformsが提唱する方式でパッケージ化すれば、パッケージ数はわずか13個に収まる。これによって、「U.2」といった小型のフォームファクターにも搭載可能できるようになる。

 より一般的に普及している「8ダイスタック」(8個積層)を使用する場合は、4倍の約50個のパッケージを搭載できるフォームファクターが必要になる。その場合でも、フォームファクターが標準的な「EDSFF E1.L」(EDSFF:Enterprise and Data Center SSD Form Factor)であれば、十分なスペースを確保できる。


 次回は、データ保管以外に期待されているAI分野での大容量SSDの用途と、その先進技術を紹介する。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る