AI導入を急ぐ企業にとって、ストレージは単なる「データの保管場所」以上の意味を持つ。データ集約的なAIのパフォーマンスやコストは、基盤となるストレージの設計次第で劇的に変わるためだ。本稿では、AIプロジェクトを成功に導くための最適なストレージ選定と、実践すべき4つの鉄則を解説する。
大まかに言えば、現代のクラウドストレージシステムはどれも「データを保管する」という基本機能は共通している。しかし、企業がAIを導入する文脈で、クラウドストレージの重要性は一気に高まる。多くのAIアプリケーションは極めてデータ集約的であるため、ストレージの設計や構成がAIの性能、拡張性、そしてコスト最適化の鍵を握るからだ。
調査会社Omdia(Informa TechTargetの一部門)の調査によると、企業によるクラウドストレージへの支出は、2023年の570億ドルから2028年には1280億ドルに達する見通しだ。この急成長を強力に後押ししているのがAI需要である。
AI活用を成功させる上で、クラウドストレージは重要な役割を果たす。本稿では、組織のAI戦略に合わせてクラウドストレージを進化させるための指針を紹介する。
クラウドストレージ戦略がAIに影響を与える理由の1つは、プロバイダーが複数の異なるタイプのストレージを提供している点にある。主な選択肢は以下の通りだ。
Amazon S3やAzure Blob Storageなどが該当する。比較的非構造的な形式で、膨大な量のデータを保管できる。
Azure Disk StorageやAmazon Elastic Block Store(EBS)などが代表例だ。主にクラウドサーバが使用するファイルシステムのホストとして設計されている。
Amazon Elastic File System(EFS)などが含まれる。クラウドサーバ用の共有ストレージとして利用できるが、性能は一般的にブロックストレージよりわずかに劣る。
現代のクラウドでは多様なマネージドデータベースサービスが提供されている。構造化データと非構造化データの両方をホスト可能だ。
前述のストレージシステムはいずれも、AIワークロードを動かすデータの格納先となり得る。ただし、どの選択肢を選ぶかによって、AIの性能やコスト、セキュリティは大きく変わる。
例えば、AIモデルの「訓練(トレーニング)」という一般的なユースケースを考えてみよう。訓練データ自体はどのストレージにも配置できるが、以下の要素を考慮すると最適な選択肢が見えてくる。
極めて大量のデータを保持する場合、拡張性が事実上無制限であるオブジェクトストレージが理想的だ。
ドキュメントやメディアファイルなど、多様な非構造化データを使用してモデルを訓練する場合、あらゆる種類の情報に対応できるオブジェクトストレージが適している。一方で、ログファイルの項目など構造化されたデータを用いるなら、構造化データベースの方が高いパフォーマンスを期待できる。
モデルの訓練を特に迅速に進める必要がある場合は、入出力(I/O)速度に優れたストレージが役立つ。例えば、EBSのI/OレートはS3の最大20倍に達することがある。RAMベースのデータベースも非常に高いI/O性能を誇るが、コストも高くなる傾向がある。
クラウドストレージのコストは種類によって異なる。1GB当たりの単価で見れば、オブジェクトストレージが最も安価なことが多く、大規模な訓練データセットを扱う場合に適している。ただし例外もある。小さく構造化されたデータ資産が大量にある場合は、データベースの方がコスト効率が高くなる可能性がある。
こうした変数は、AI向けのシステム選定でメリットとデメリットをてんびんにかける重要性を示している。コスト最適化を優先するならオブジェクトストレージが最も合理的だ。一方で、訓練時間の短縮を最優先するなら、ブロックストレージやインメモリデータベースがより良い選択肢となる。
AIワークロードに最適なストレージの種類を選定することに加え、以下のベストプラクティスを検討すべきだ。これらは、あらゆるAI展開で性能とコストを改善する助けになる。
データクレンジングとは、データセットから不正確なデータ、重複データ、低品質なデータを取り除くプロセスだ。これはAIモデルの性能向上につながるだけでなく、保管する総データ量を減らすことでストレージコストを抑制し、拡張性を高めることにもつながる。
クラウドストレージが期待通りの性能を発揮しているか確認するため、データパイプラインを監視する必要がある。これは、ストレージシステムとAIワークロードの間を行き来するデータの経路を可視化することを意味する。
オブザーバビリティーを確保すれば、特定のファイル形式の転送に時間がかかりすぎているといったボトルネックを特定できる。また、保存・移動したデータ量を追跡することで、コスト監視にも役立つ。多くのクラウドストレージは、総容量だけでなく、データの転送やアクセスの頻度に基づいた従量課金制を採用している点に注意が必要だ。
オブジェクトストレージを中心に、多くのシステムでは複数のストレージ階層(ホット、ウォーム、コールドなど)を提供している。階層が「ホット」になるほどアクセス速度は上がるが、料金も高くなる。
コストと性能のバランスを改善するには、ワークロードの種類に応じて適切な階層を選択することだ。例えば、モデルの訓練中はデータを「ホット」階層に置き、高速な取り込みを可能にするのが合理的だ。訓練終了後、将来の再訓練に備えてデータを保管しておくだけなら、コストの安い「コールド」階層へ移行させればよい。
他のワークロードと同様に、AIモデルが消費・生成するデータもバックアップによる保護が必須だ。クラウドストレージが停止することはまれだが、その可能性はゼロではない。また、ユーザーやAIアプリケーション自体が誤ってデータを削除するリスクもある。
そのため、クラウドストレージに対するデータ保護への投資は不可欠だ。最適な方法はストレージの種類やデータの性質による。同じクラウド内にコピーを作成するだけで十分な場合もあれば、より高い信頼性を求めるなら別のクラウドやオンプレミス環境にコピーを保存すべきだろう。バックアップ用のストレージを「不変(イミュータブル)」設定、つまり削除や改ざんが不可能な構成にすれば、悪意ある攻撃や誤操作による消失を防ぎ、保護をさらに強化できる。
著者紹介:クリス・トッツィ。フリーランスライター、リサーチアドバイザー、ITと社会学を専門とする大学教授。過去にはジャーナリストやLinuxシステム管理者としての経歴を持つ。
Copyright © ITmedia, Inc. All Rights Reserved.
その「設定ミス」が費用を垂れ流す クラウドバックアップを見直す4手順
2026年「SSD枯渇」の悪夢再び? AIブームが引き起こすストレージ調達危機
“SSD全盛期”だろうが「テープ」が注目される「コストだけじゃない」理由
情シスが知っておきたい、バックアップのトレンド4選 DNAバックアップの動向も
「システムが遅い」は崩壊の予兆? レガシーストレージが発する5つの危険信号
瞬時にM365が乗っ取られる――全社員に周知すべき“新フィッシング”の教訓
MFA(多要素認証)を入れたから安心という常識が崩れ去っている。フィッシング集団「Tycoon2FA」が摘発されたが、脅威が完全になくなったというわけではない。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...