AI性能を左右するクラウドストレージ選定、コストと性能を両立させる4つの鉄則:AIワークロードに最適なのは
AI導入を急ぐ企業にとって、ストレージは単なる「データの保管場所」以上の意味を持つ。データ集約的なAIのパフォーマンスやコストは、基盤となるストレージの設計次第で劇的に変わるためだ。本稿では、AIプロジェクトを成功に導くための最適なストレージ選定と、実践すべき4つの鉄則を解説する。
大まかに言えば、現代のクラウドストレージシステムはどれも「データを保管する」という基本機能は共通している。しかし、企業がAIを導入する文脈で、クラウドストレージの重要性は一気に高まる。多くのAIアプリケーションは極めてデータ集約的であるため、ストレージの設計や構成がAIの性能、拡張性、そしてコスト最適化の鍵を握るからだ。
調査会社Omdia(Informa TechTargetの一部門)の調査によると、企業によるクラウドストレージへの支出は、2023年の570億ドルから2028年には1280億ドルに達する見通しだ。この急成長を強力に後押ししているのがAI需要である。
AI活用を成功させる上で、クラウドストレージは重要な役割を果たす。本稿では、組織のAI戦略に合わせてクラウドストレージを進化させるための指針を紹介する。
クラウドストレージシステムの選択肢
クラウドストレージ戦略がAIに影響を与える理由の1つは、プロバイダーが複数の異なるタイプのストレージを提供している点にある。主な選択肢は以下の通りだ。
- オブジェクトストレージ
Amazon S3やAzure Blob Storageなどが該当する。比較的非構造的な形式で、膨大な量のデータを保管できる。
- ブロックストレージ
Azure Disk StorageやAmazon Elastic Block Store(EBS)などが代表例だ。主にクラウドサーバが使用するファイルシステムのホストとして設計されている。
- ファイルストレージ
Amazon Elastic File System(EFS)などが含まれる。クラウドサーバ用の共有ストレージとして利用できるが、性能は一般的にブロックストレージよりわずかに劣る。
- データベース
現代のクラウドでは多様なマネージドデータベースサービスが提供されている。構造化データと非構造化データの両方をホスト可能だ。
クラウドストレージがAIワークロードに与える影響
前述のストレージシステムはいずれも、AIワークロードを動かすデータの格納先となり得る。ただし、どの選択肢を選ぶかによって、AIの性能やコスト、セキュリティは大きく変わる。
例えば、AIモデルの「訓練(トレーニング)」という一般的なユースケースを考えてみよう。訓練データ自体はどのストレージにも配置できるが、以下の要素を考慮すると最適な選択肢が見えてくる。
- 拡張性
極めて大量のデータを保持する場合、拡張性が事実上無制限であるオブジェクトストレージが理想的だ。
- データ構造
ドキュメントやメディアファイルなど、多様な非構造化データを使用してモデルを訓練する場合、あらゆる種類の情報に対応できるオブジェクトストレージが適している。一方で、ログファイルの項目など構造化されたデータを用いるなら、構造化データベースの方が高いパフォーマンスを期待できる。
- 訓練スピード
モデルの訓練を特に迅速に進める必要がある場合は、入出力(I/O)速度に優れたストレージが役立つ。例えば、EBSのI/OレートはS3の最大20倍に達することがある。RAMベースのデータベースも非常に高いI/O性能を誇るが、コストも高くなる傾向がある。
- コスト
クラウドストレージのコストは種類によって異なる。1GB当たりの単価で見れば、オブジェクトストレージが最も安価なことが多く、大規模な訓練データセットを扱う場合に適している。ただし例外もある。小さく構造化されたデータ資産が大量にある場合は、データベースの方がコスト効率が高くなる可能性がある。
こうした変数は、AI向けのシステム選定でメリットとデメリットをてんびんにかける重要性を示している。コスト最適化を優先するならオブジェクトストレージが最も合理的だ。一方で、訓練時間の短縮を最優先するなら、ブロックストレージやインメモリデータベースがより良い選択肢となる。
AIワークロードのクラウドストレージの4つの鉄則
AIワークロードに最適なストレージの種類を選定することに加え、以下のベストプラクティスを検討すべきだ。これらは、あらゆるAI展開で性能とコストを改善する助けになる。
1.データのクレンジング
データクレンジングとは、データセットから不正確なデータ、重複データ、低品質なデータを取り除くプロセスだ。これはAIモデルの性能向上につながるだけでなく、保管する総データ量を減らすことでストレージコストを抑制し、拡張性を高めることにもつながる。
2.データパイプラインのオブザーバビリティー(可観測性)の確立
クラウドストレージが期待通りの性能を発揮しているか確認するため、データパイプラインを監視する必要がある。これは、ストレージシステムとAIワークロードの間を行き来するデータの経路を可視化することを意味する。
オブザーバビリティーを確保すれば、特定のファイル形式の転送に時間がかかりすぎているといったボトルネックを特定できる。また、保存・移動したデータ量を追跡することで、コスト監視にも役立つ。多くのクラウドストレージは、総容量だけでなく、データの転送やアクセスの頻度に基づいた従量課金制を採用している点に注意が必要だ。
3.ストレージ階層の活用
オブジェクトストレージを中心に、多くのシステムでは複数のストレージ階層(ホット、ウォーム、コールドなど)を提供している。階層が「ホット」になるほどアクセス速度は上がるが、料金も高くなる。
コストと性能のバランスを改善するには、ワークロードの種類に応じて適切な階層を選択することだ。例えば、モデルの訓練中はデータを「ホット」階層に置き、高速な取り込みを可能にするのが合理的だ。訓練終了後、将来の再訓練に備えてデータを保管しておくだけなら、コストの安い「コールド」階層へ移行させればよい。
4.データ保護の徹底
他のワークロードと同様に、AIモデルが消費・生成するデータもバックアップによる保護が必須だ。クラウドストレージが停止することはまれだが、その可能性はゼロではない。また、ユーザーやAIアプリケーション自体が誤ってデータを削除するリスクもある。
そのため、クラウドストレージに対するデータ保護への投資は不可欠だ。最適な方法はストレージの種類やデータの性質による。同じクラウド内にコピーを作成するだけで十分な場合もあれば、より高い信頼性を求めるなら別のクラウドやオンプレミス環境にコピーを保存すべきだろう。バックアップ用のストレージを「不変(イミュータブル)」設定、つまり削除や改ざんが不可能な構成にすれば、悪意ある攻撃や誤操作による消失を防ぎ、保護をさらに強化できる。
著者紹介:クリス・トッツィ。フリーランスライター、リサーチアドバイザー、ITと社会学を専門とする大学教授。過去にはジャーナリストやLinuxシステム管理者としての経歴を持つ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
その「設定ミス」が費用を垂れ流す クラウドバックアップを見直す4手順
クラウドバックアップの費用増はサービスの値上げだけが原因ではない。不要なデータの放置や設定ミスなど、複数の要因が毎月の無駄を生んでいる。バックアップシステムを点検し、費用を適正化する4手順を解説する。
2026年「SSD枯渇」の悪夢再び? AIブームが引き起こすストレージ調達危機
「ストレージはただの器」という認識が、AIプロジェクトを破綻させる。AIの真の力を引き出し、コストの死角を消すための戦略的資産のこつとは。ベンダー動向を踏まえ解説する。
“SSD全盛期”だろうが「テープ」が注目される「コストだけじゃない」理由
かつてデータ保管用のストレージの主流だったテープは、HDDやSSDが台頭した現代でもさまざまな用途で使われ続けている。コスト面における優位性以外に、どのような理由で使われているのか。
情シスが知っておきたい、バックアップのトレンド4選 DNAバックアップの動向も
2025年が終わろうとしている。2026年に向けて、企業のIT担当者が把握しておくべきバックアップ戦略のトレンドにはどのようなものがあるのか。前編と後編で9つを紹介する。
「システムが遅い」は崩壊の予兆? レガシーストレージが発する5つの危険信号
管理者やエンドユーザーからの「システムが遅い」という苦情は、単なる不満ではなくシステム崩壊の予兆である可能性がある。レガシーなストレージシステムのアップグレードを決断するサインになる5つの兆候とは。