GPUの性能を最大限引き出すには、それを支えるストレージ側の進化が欠かせない。ストレージに求められている要件と、それを実現するための技術動向を解説する。
AI(人工知能)プロジェクト向けに高性能なGPUを用意しても、データの処理が追い付かなければ成果は出せない。こうした課題に対処すべく、ストレージの進化が加速している。AIインフラのボトルネック解消に向けた技術動向を解説する。
機械学習(ML)では、学習や推論の過程で大量のデータアクセスが同時多発的に発生する。I/O(入出力)待機時間を削減し、全体的な処理性能を大幅に向上させるために、ストレージ側で複数のデータストリームを同時に処理する「並列処理」が活用されている。
例えばGoogleが2023年に発表した「Parallelstore」は、AI用途に特化したマネージド並列ファイルストレージで、高スループットかつスケーラブルなI/O処理を実現できる。
AIワークロードにおけるもう一つの課題が、GPUとストレージキャッシュ間に生じるデータ転送のボトルネックだ。高価で供給も限られるGPUを最大限活用するには、ストレージからGPUへのデータ転送のレイテンシを最小限に抑える必要がある。ストレージベンダーInsurgo Mediaの最高商務責任者ジョン・ウーリー氏は、「GPUのアイドル時間(starvation)を防ぐためには、少なくとも毎秒10GBの持続的なスループットが必要だ」と述べている。
この課題の解決策として、GPUとストレージが直接データをやりとりできる「NVIDIA GPUDirect Storage」がある。GPUが従来のようにCPUやOSを経由せず、転送プロトコル「NVMe」(Non-Volatile Memory Express)を採用したストレージへ直接アクセスでき、RDMA(リモートダイレクトメモリアクセス)に類似したアーキテクチャを採用している。この仕組みはDGS(Direct GPU Support)とも呼ばれ、レイテンシの大幅削減に役立つ。
GPUと共有ストレージ間に、NVMe接続SSDをローカルキャッシュレイヤーとして配置し、各GPUに毎秒60GB超の帯域飽和を供給する構成も登場している。この性能を支えるため、クラウドベンダー各社は「シングルレベルセル」(SLC)のNAND型フラッシュメモリをベースとしたDGS最適化SSDの開発を進めている。
NAND型フラッシュメモリ用コントローラーを手掛けるPhison USの最高技術責任者(CTO)セバスチャン・ジーン氏は、次のように説明する。「推論ワークロードでは、従来型の大容量ストレージと、超低レイテンシのDGS対応ストレージの両方が求められる」。小さなI/Oを瞬時にさばく能力が、GPUベースのAI処理では特に重要だと同氏は指摘する。
こうしたニーズの高まりを受けて、NVIDIAが提供するAIインフラ向けの認証「NVIDIA DGX BasePod」「NVIDIA DGX SuperPod」を取得したストレージ製品も増えている。AIワークロードに特化したストレージは、今後の主力インフラとして、より洗練された設計へと進化していく見込みだ。昨今の代表的なAIワークロード向けストレージには、以下のような製品がある。
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
ビジネスに生成AIを利用するのが当たり前になりつつある中、ローコード開発への活用を模索している組織も少なくない。開発者不足の解消や開発コストの削減など、さまざまな問題を解消するために、生成AIをどう活用すればよいのか。
システム開発を任されても、「何から始めたらよいのか分からない」という担当者は多いだろう。そこで本資料では、システム開発の流れや専門用語といった基礎知識を分かりやすく解説するとともに、システム開発の4つの手法を紹介する。
システムの不具合によるさまざまなリスクを回避するには網羅的なテストを行う必要があるが、自社で行うのは難しい。そこで活用したいのが外部のテスト専門会社だ。本資料ではテスト専門会社を活用するメリットや具体的な流れを解説する。
レガシーシステムからの脱却が叫ばれる中、「ERP×ノーコードツール」のアプローチで基幹システムの刷新に取り組む企業が増加している。その推進に当たっては、「Fit to Company Standard」の概念を頭に入れておくことが必要になる。
迅速なサービスの提供を実現する手段として、「ローコード開発×内製化」が注目されている。エンジニア不足の中でも、非IT部門が開発を担える点がその理由の1つだが、全てが順調に進むわけではない。失敗事例から得た2つの教訓を紹介する。
なぜ、「kintone」が大企業の「Fit to Standard」に効果的なのか (2025/3/7)
ノーコードは、負の遺産であるアナログ業務をなくせるのか (2024/11/12)
手間もコストもかかるGUIのテストはどうすれば自動化できるのか (2024/6/4)
「システム内製化」が失敗しがちなのはなぜ? “従来のやり方”では駄目な理由 (2024/5/15)
金融機関のモダナイゼーション 最適解に導くには (2024/3/29)
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...