AIの巨大なデータ処理を担うGPUは膨大な電力を消費し、かつてないほどの熱を放出している。従来の空冷システムでは追い付かず、騒音や障害の火種になる中、次の一手として注目される「液冷」技術とは。
AIワークロードや膨大なデータを高速処理するハイパフォーマンスコンピューティング(HPC)の処理負荷は、サーバやラックの電力密度(発熱レベル)を従来型の空冷設備の限界以上に押し上げている。高密度ラックの冷却は単なる設備管理の枠を超え、データセンターにどれだけの計算リソースを実装し、確実かつ効率的に規模を拡張できるかを左右する戦略的な重要課題だ。
AIモデルの学習や推論処理が、より大規模で並列処理に優れたGPU(グラフィックス処理装置)を高密度に集積したシステムに移行するにつれ、熱は一部のラックに集中する。ハイエンドなGPUは1基で数百ワットの電力を消費し、フル構成のAIサーバ1台の消費電力は数キロワットに達する。これをラック単位で見ると、状況はさらに過酷だ。新規のAIシステムは、一般的な企業施設で普及している20キロワット程度の範囲から、50キロワット、100キロワット、あるいはそれ以上の電力を消費する高密度な構成へと移行しつつある。
こうした変化は、データセンター設計における冷却機能の役割を根本から変える。空気の流れの最適化や高効率な空冷は依然として重要であるものの、もはやあらゆる処理負荷や電力密度を処理するには不十分だ。本稿は、高密度なAIデータセンターが直面する冷却の新たな課題を掘り下げ、空冷と液冷のシステムを連携させた革新的な熱管理手法の必要性を解き明かす。
過去数十年にわたり、空冷はデータセンターの熱管理を支える大黒柱だった。広大な敷地を持ち、中程度の電力密度で稼働する北米の既存データセンターにおいて、空冷は現代でも費用対効果に優れた実用的な手段だ。しかし、運用の実態はかつてない速度で変化を続けており、熱伝達の物理的な限界が立ちはだかっている。
熱エネルギーを吸収して運搬する媒体として、空気の性能は液体に大きく劣る。質量当たりの熱容量を比較すると、水は空気の約4倍もの性能を誇る。空気の温度上昇をカ氏20度(約セ氏11度)に抑えつつ1キロワットの熱を取り除くには、毎分約4.47立方メートル(158CFM)もの風量が必要だ。仮に許容できる温度上昇幅を半分に設定した場合、求められる風量は約2倍になる。
設備の配置などを高度に最適化した空冷であっても、処理できる限界はラック1台当たり30キロワット〜40キロワット程度だ。この数値を超えると、風量や風速を現実的な範囲で管理できなくなる。結果として、許容値を超える騒音が発生し、システムの安定稼働を脅かす。
高密度なシステム構成において、液冷は欠かせない要件になりつつある。仕組みの基本原則は単純であり、熱を吸収する箇所を限界まで熱源に近づけるというものだ。空気の1000倍以上という体積当たりの熱容量を持つ液体は、現在および将来のAIサーバ機器が発する極端な熱負荷を処理するための、極めて現実的な手段として機能する。
Direct-to-Chip(D2C)液冷は、サーバ内部で最も高温になる発熱部品を直接狙い撃つ冷却手法だ。この技術は、発熱部品上の空冷用ヒートシンクを、熱伝導率に優れた銅やアルミニウム製の冷却板に置き換えて機能する。密閉された配管ネットワーク内で冷却液を循環させることで、チップから直接熱を奪い取る仕組みだ。D2Cは、これまで空冷のみだったサーバルームに初めて液冷を導入する際、最初に選ばれやすい手法だ。
ラック単位での主要なアプローチとしては、Rear-Door Heat Exchanger(RDHx:背面ドア型熱交換器)が挙げられる。これはラックの背面にラジエーターのような冷却装置を取り付ける手法だ。排出された熱い空気がサーバ室内に広がる前に、ラックの出口で即座に冷却して熱を封じ込めるよう設計されている。風の通り道など室内全体の空調システムを大掛かりに再設計しなくても、冷却水配管の引き込みだけでラックの電力密度を高められる点が、RDHxの最大の利点だ。
100キロワットを超える超高密度なラック消費電力の条件においては、液浸冷却が最も効率的な冷却手段の一つとなる。これは、熱伝導性が高く電気を通さない絶縁性液体の中に、IT機器を丸ごと沈めて冷やす方式だ。導入に当たっては、専用に設計されたサーバ機器や既存機器の改造、特殊な液体の取り扱い工程、大規模な設備改修が求められる。
ラック当たりの発熱量がかつてなく高まるデータセンターにおける冷却能力の拡張は、単に特定の技術を選ぶだけにとどまらない長期的な取り組みを意味する。設備をブロック単位で追加できるモジュール式設計、高度な監視技術、サステナビリティー(持続可能性)への配慮を盛り込んだ包括的な計画が欠かせない。
施設管理者は、サーバ構成や電力密度の変動に対する適応力を生かし、必要に応じて拡張可能な冷却手段を配備していく。過剰な設備投資による無駄な費用を抑えつつ、資金面および運用面で高い自由度を確保できるのがこのアプローチの強みだ。
前述のRDHxなどの手法は、データセンターの既存キャビネットに後付けで実装しやすい。一方で電力密度がさらに高まれば、D2C液冷を導入する方が理にかなっている。最高クラスの発熱レベルとなる構成では、独立したモジュール式タンクを用いた液浸冷却を運用することになる。計算リソースの需要増減に合わせて、冷却能力を無駄なく拡張できるのがこの仕組みの特徴だ。
冷やす仕組みには、レジリエンス(障害からの回復力)も強く求められる。耐障害性と保守性をあらかじめインフラの設計段階で組み込んでおかなければならない。ポンプや冷却液を分配する冷却水分配装置(CDU:Coolant Distribution Unit)、熱を屋外へ逃がすチラーなどの機材を「N+1(予備1台)」や「2N(完全二重化)」といった冗長構成で配置し、一部の部品が故障してもシステム全体の継続的な稼働を担保する。
運用規模を拡張できる冷却手法には、包括的な監視と分析の機能も不可欠となる。データに基づいた確実な運用を実現するためには、高密度な無線センサーのネットワークを構築しなければならない。データセンターの温湿度基準の事実上の世界標準を定める米国暖房冷凍空調学会(ASHRAE)は、1ラック当たり6カ所(前面および背面のそれぞれ上、中、下)の温度センサー設置を推奨している。液冷システムにおいては、冷却水分配装置内の冷却液の流量、圧力、温度をセンサーで絶えず監視する必要がある。
データセンター管理者は、これらのセンサーから得た数値を機械学習アルゴリズムによる予知保全に活用できる。事前に対策を講じる保守スケジュールを計画的に組むことで、予期しないシステム停止を減らし、IT機器の寿命を延ばすことが可能だ。
サステナビリティーは現代ビジネスの主要な関心事となっており、事業者には電力使用効率(PUE)と水使用効率(WUE)のバランスを取ることが求められている。先進的な液冷を導入すれば、冷却用のエネルギー消費を減らしてPUEを改善できる。ただし、建物の外部で冷却塔などを使って水を蒸発させることで高い冷却効率を得る方式を採用する場合、PUEが下がる半面、水の消費量(WUE)は悪化するため、施設全体としての最適なバランス調整が不可欠だ。
データセンター冷却の未来は、空冷から液冷への全面的な置き換えではない。それぞれの発熱レベルの条件に最適な冷却手段を適用する、ハイブリッドな熱管理アーキテクチャに進化する。最適化された空冷技術は、稼働中の多くの従来型施設において引き続き中心的な役割を担う。対照的に、D2C液冷やRDHx、液浸冷却などの手法は、ラック単位の熱負荷が物理的な限界を超える場所に絞ってピンポイントに配備される。
これからの冷却技術は、計算リソースの規模に合わせて自在に変化する、計画的なインフラ構造へと姿を変える。熱による性能低下を引き起こすことなく、供給された電力を最大限の計算能力へと変換し切る。それこそが、これからの時代に成功を収めるデータセンターの絶対条件だ。
Copyright © ITmedia, Inc. All Rights Reserved.
瞬時にM365が乗っ取られる――全社員に周知すべき“新フィッシング”の教訓
MFA(多要素認証)を入れたから安心という常識が崩れ去っている。フィッシング集団「Tycoon2FA」が摘発されたが、脅威が完全になくなったというわけではない。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...