近日,戴爾首席運營官傑夫·克拉克(Jeff Clarke)在乙份新聞稿中透露,英偉達將在2025年推出採用“Blackwell”架構的B200產品,功耗可能達到1000W,比H100提公升40%以上戴爾需要利用其工程獨創性來冷卻 GPU。
Clarke指出,作為一家硬體製造商,重要的是冷卻產生這些FLOPS(每秒浮點運算)的處理器,而這正是戴爾的優勢所在
我們將有機會展示我們作為行業領導者所做的工作利用我們的專業知識實現大規模的液冷效能無論是流體化學和效能工作,還是我們的互連工作,我們正在做的遙測工作,我們正在做的電源管理工作。 我們已準備好將其大規模推向市場,以利用市場上存在的這種令人難以置信的計算能力或實力或容量。3月3日,國盛**分析師宋家驥、黃晗、石玉傑在題為《液冷元年》的報告中指出。隨著算力時代的到來,GPU伺服器體積增加和液冷實施的驅動力發生了根本性的變化2024年將是液冷散熱的第一年。
國生**分析,與傳統伺服器相比,AI伺服器的功耗得到了極大的提公升,成為驅動液冷的直接導火索從幾百瓦的CPU伺服器到幾千瓦的GPU異構伺服器,熱功耗增加了幾十倍然而,風冷的上限無法滿足AI的散熱需求,成為加速液冷散熱的“必須”
在AI時代大模型興起後,並行算力網路下的異構架構成為主流,AI伺服器不僅使用傳統的CPU晶元,還增加了大量的大功率GPU晶元,整機功率大幅提公升,比如NVIDIA A100 SXM晶元單卡功耗為400W, 而 8 卡 AI 伺服器單個 GPU 的熱功耗為 32kw,h100 pcie 5.單卡0晶元功耗高達700W; 對於傳統的通用伺服器,以H3C為例,R4900 G6伺服器處理器的最大功率為385W。國盛**認為,行業正處於落地液冷散熱更大的問題是,初始投資比傳統的風冷要多但隨著AIDC建設的加快,大功率機櫃的滲透率明顯提高,功耗遠超傳統機櫃,液冷相對於風冷的優勢逐漸凸顯,節省的電費有望逐漸“稀釋”初期投資預計冷板液冷整體投資+運維價效比拐點有望加速。單個風冷製冷櫃的上限通常在15kW左右,液冷資料中心的單個機櫃可以支援30kW以上的散熱能力。 以 H100 為例,假設 8 張卡完全配置,單個 H100 伺服器的功耗將達到 5在6kW(不考慮CPU、儲存、整機額外散熱),風冷散熱門檻有限,成為實際操作中的痛點,AI伺服器機櫃無法散熱,液冷成為“必選”。
開源**還指出,在碳達峰、碳中和的背景下,IDC綠色化是大勢所趨液冷或散熱技術的演進是必然的途徑隨著PUE要求的不斷嚴格,液冷散熱的優勢逐漸凸顯出來,無論是IDC的新建還是庫存改造的需要,液冷都有望成為首選。
財新**研究報告認為在資料中心大規模集約化發展的趨勢下,液冷解決方案仍有每年降低成本5-10%的空間考慮到液冷方案可以有效延長伺服器的使用壽命,未來液冷資料中心的總成本將更加明顯。