GPU不足は“あの技術”で解消する？　AIインフラの4大疑問に答える：AIインフラの最新動向を探る【前編】

2024年は、生成AIの本格的な普及が進んだ一年となった。一方で、その基盤となるAIインフラの構築や運用においては、さまざまな課題が浮き彫りになっている。本稿は、AIインフラ市場の動向を整理する。

≫ 2025年05月07日 05時00分公開

[松浦淳，トゥモロー・ネット]

1．「GPU不足」の行方を左右する技術とは？

併せて読みたいお薦め記事

AIインフラに関する話題

　現状、生成AIインフラの構築においてはGPUが不可欠となっています。近年のGPU市場はNVIDIAの一強状態が続いています。複数のメーカーが高性能のGPUを提供している中で、なぜNVIDIAが事実上の標準となっているのでしょうか。その要因の一つは、NVIDIA独自の開発ツール群「CUDA」（Compute Unified Device Architecture）の存在です。

　CUDAはGPUの並列処理を最適化するためのソフトウェアで、ディープラーニング（深層学習）や機械学習、ハイパフォーマンスコンピューティング（HPC：高性能計算）に広く活用されています。生成AIの学習プロセスでは、CUDAを用いてパラメーターの最適化やAIモデルの並列処理を効率的に実行できます。しかし、CUDAはNVIDIA製GPUでのみ動作するため、開発されたAIモデルやプログラムは基本的にNVIDIAのGPU環境でしか利用できません。

　この「CUDAロックイン」こそが、NVIDIAが市場を支配し続ける大きな要因の一つです。しかし、競合ベンダーも手をこまねいているわけではありません。例えば、半導体設計ベンダーAdvanced Micro Devices（AMD）は、CUDAと互換性のある開発ツール群「ROCm」を開発しています。AMDはROCmをオープンソースで提供することで、幅広い技術との提携を促進したり、CUDAベースのAIソフトウェア資産をAMDのGPU環境へ移行したりすることを目指しています。この技術が普及すれば、GPU市場の選択肢が一気に広がり、価格競争が進むことも期待できます。

2．水冷サーバの採用が拡大、一方で課題も

　GPUサーバの消費電力の増加も深刻な課題です。ハードウェアの処理能力向上に伴い、サーバ1台当たりの消費電力と発熱量は年々増加しています。結果として、大規模なAIインフラの運用には膨大な電力が必要になるのが現状です。この課題を解決するために、近年データセンターでは水冷方式の採用が欠かせなくなっています。

図1　水冷方式には幾つかの種類がある（出典：トゥモローネット資料）《クリックで拡大》

　水冷方式には幾つか種類があり、例えば以下のようなものがあります（これらの名称はメーカーにより呼び方が異なる可能性があります）。

コールドプレート方式（Direct to Chip Liquid Cooling）
- サーバボードに配管を組み込み、そこに冷却水を流してGPUやCPUを冷やす方式。ラックにはCDM（Coolant Distribution Manifold）と呼ばれる水道配管が設置され、水流の方向や流量はCDU（Coolant Distribution Unit）によって制御される。放熱した水を冷却するために、データセンターの外部にはクーリングタワー（巨大なエアコン室外機のようなもの）が設置される。
液浸方式（Immersion Cooling）
- GPUやCPUの載ったボードを丸ごと特殊な冷却液に浸す方式。液体を循環させるために、ウォーターポンプやCDUをラックに設置する。コールドプレート方式と同様、クーリングタワーが必要。

図2　コールドプレート方式で使用される装置の説明（出典：トゥモローネット資料）《クリックで拡大》

　いずれも水冷方式に対応した専用のボードや配管、クーリングタワーなどの追加設備が必要になります。そのため、水冷方式を採用する場合は従来のデータセンターを水冷対応に改修する傾向にあります。新設するデータセンターでは、最初から水冷方式を前提として設計されるケースが一般的になりつつあります。

　生成AI時代のサーバインフラは、水冷方式への移行により設備投資コストが増加するだけではなく、ベンダーロックインのリスクも高まります。水冷対応のサーバボードや配管の仕様はベンダーごとに異なるため、従来のように異なるベンダーの機器を組み合わせて使用することが難しくなります。配管やクーリングタワーはデータセンターの管轄になるので、責任分界点においても注意が必要です。例えば、漏水や設備停止といった運用トラブル発生時の対応責任を明確化しておかないと、混乱が生じる恐れがあります。

　他にも、水冷システムでは、配管の劣化や水漏れがサーバの稼働停止や機器の故障といった致命的なリスクに直結するため、定期的な点検と交換が必須です。使用する水の管理も重要です。日本では水道水に塩素が含まれているため、長期間使用するとカルシウムの付着といった問題が発生する可能性があります。コールドプレート方式では温度・湿度の影響で水滴が発生し、機器の性能や耐久性に影響を与えるリスクも指摘されています。結果的に、導入コストや運用コストが増加する可能性がある点にも注意が必要です。

3．AI時代にエンジニア不足が深刻化　足りないのは“あのスキル”

　生成AIインフラの構築には、ハードウェアの物理層から、ストレージを含む仮想化インフラ層、さらにアプリケーション層まで、幅広い知識と技術が求められます。これらの技術を支えるエンジニアの不足は、日本国内でも大きな課題となっています。

　特に「日米での技術選択の違い」がエンジニア不足を加速させる一因となっています。その代表例が「Kubernetes」の活用方法です。Kubernetesはコンテナ管理のオーケストレーションツールとして広く活用されていますが、米国ではこれをGPU全体の管理に活用している例があります。

　日本ではGPUで使用する計算データを外部ストレージに保管し、計算時に都度コピーして利用することが多いです。一方の米国では、Kubernetesクラスタ上にワークロード（実行されるアプリケーションの処理の単位）ごとのコンテナを設置し、GPUサーバと共有ストレージを構築するケースが多いです。つまり、必要なデータに直接アクセスして計算を実施しています。こうしたアプローチでは、データのコピーを最小限に抑え、計算速度を向上させることが可能です。

図3　Kubernetesを用いたインフラ管理の概念図　（出典：トゥモローネット資料）《クリックで拡大》　注：PODとは、Kubernetesでアプリケーションを実行する最小単位

　Kubernetesを軸としたシステムでは、例えばストレージを追加したら、ストレージプラグインを通じてKubernetesが新たなリソースを自動的に認識・管理することができます。これにより、システムを容易にスケールアウトさせ、大規模なシステムを作り上げることができます。こうした仕組みは、従来のシステムに対して運用効率を大きく高めることが可能となっています。

　一方日本では、GPUリソースの管理には、HPCのリソース管理にも使われるオープンソースソフトウェア「Slurm」（スラム）が中心的に利用されています。Slurmは、どのGPUをいつ、どれだけの時間使用するかといったリソースの割り当てを細かく管理・スケジューリングすることに特化しており、バッチ処理的な計算ジョブの効率化に適しています。

図4　Slurmを用いたインフラ管理の概念図（出典：トゥモローネット資料）《クリックで拡大》

　日本でも大企業を中心にKubernetesベースのAIインフラ導入が進みつつあります。しかし、特に日本ではKubernetesでの大規模なプロジェクトがまだ少ないため、経験者や技術が不足している状況が続いています。今後は新しいアーキテクチャの導入とKubernetesのエンジニアの育成に取り組んでいくことが、日本のAIインフラの競争力向上に不可欠となるでしょう。

4．「出口戦略」が不可欠に

　生成AIは、文章の要約をはじめとする自然言語処理や、ソースコードの生成など、多岐にわたる分野で効果を発揮しています。しかし、多くの企業は出口戦略、つまりマネタイズ戦略に関して明確なイメージを描けていない印象があります。もちろん、現在は生成AIインフラの構築フェーズであり、マネタイズが次のフェーズと考えられているケースもあります。持続可能なビジネスモデルを構築するためには、現時点から出口戦略を意識したAI活用のロードマップを描くことが重要です。

　生成AIの活用方法は、「守りのIT」と「攻めのIT」の2つに大別されます。守りのITとは、生成AIを用いた業務効率化やコスト削減を指します。例えば、チャットbotによる問い合わせ対応の自動化や、ドキュメント要約などです。攻めのITとは、新たなビジネスモデルの創出を意味します。例えば生成AIを活用した新規サービスの開発や、新たな収益源の確立です。現時点では守りのITにとどまる企業が多いものの、生成AIを本格的に収益化し、競争優位性を確立するためには攻めのITへの移行が欠かせません。

　次回は、AI導入に伴うインフラ選定のポイントと、米国と比較した日本の状況に切り込みます。

執筆者紹介

松浦淳（まつうら・じゅん）　トゥモロー・ネット　取締役副社長兼 COO（最高執行責任者）

富士通、シトリックス・システムズ・ジャパンで開発、サポート、ソリューションエンジニア業務に従事し、デル株式会社（現：デル・テクノロジーズ株式会社）の事業部長を経て現職に至る。トゥモロー・ネットでは、ITエンジニアとしての経験を生かして企業経営全般に関与している。米国シリコンバレーを中心とした海外スタートアップ企業の日本法人立ち上げも複数経験しており、日本市場への製品展開に豊富な経験を持つ。

TechTargetジャパントップエンタープライズAI