Hot Chips 2024 | 下一代NVIDIA加速計算冷卻技術(shù)

逍遙設(shè)計自動化 · 發(fā)表于昨天 08:00

引言
在人工智能（AI）時代，計算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù)，以應(yīng)對這些前所未有的挑戰(zhàn)[1]。

先進冷卻技術(shù)的需求
隨著AI模型日益復(fù)雜和龐大，對計算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的：

圖1：NVIDIA AI工廠的發(fā)展歷程，從2021年的Selene（4,480個A100 GPU）到預(yù)計的下一代AI工廠（32,000個GPU，645 ExaFLOPs AI計算能力）。

這些AI工廠正在推動訓(xùn)練和推理能力的極限。然而，強大的計算能力也意味著巨大的熱量產(chǎn)生，因此需要先進的冷卻解決方案來維持最佳性能和效率。

數(shù)據(jù)中心冷卻技術(shù)：解決方案譜系
為滿足不同數(shù)據(jù)中心設(shè)置的需求，NVIDIA開發(fā)了一系列冷卻技術(shù)，從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù)：

1. 空氣冷卻
空氣冷卻仍然是低密度到中密度機架的可行選擇。空氣冷卻有幾種方法：
a) CRAH/CRAC空氣冷卻：

適用于低密度機架的房間級冷卻

空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水

使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離

圖2：展示使用CRAH/CRAC單元的空氣冷卻設(shè)置，顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。

b) 行間冷卻器空氣冷卻：

適用于中密度機架的通道級冷卻

熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水

可使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離

c) 后門熱交換器（RDHX）空氣冷卻：

適用于中密度機架的機架級局部冷卻

空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水

可獨立使用或與CRAH單元配合使用作為輔助冷卻

2. 混合空氣和液體冷卻
隨著數(shù)據(jù)中心密度增加，結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力：
a) 液體到空氣側(cè)車（L2A）液體冷卻：

適用于高密度機架的通道級空氣/液體混合冷卻

適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻

無需額外的液體冷卻基礎(chǔ)設(shè)施

過渡性解決方案，冷卻能力有限

圖3：液體到to Air Side Car（L2A）冷卻設(shè)置，演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。

b) 液體到液體CDU（L2L）液體冷卻：

適用于高密度機架的通道級空氣/液體混合冷卻

行級冷卻分配單元可在緊湊的CDU單元中移除兆瓦級IT熱量

需要額外的液體冷卻基礎(chǔ)設(shè)施

過渡性解決方案，單相液體冷卻的極限

3. 直接芯片液體冷卻
對于最高密度的機架和最苛刻的冷卻需求，直接芯片液體冷卻提供了最高效的解決方案：

液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻

在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力

功耗約為名義冷卻能力的1%

圖4：Direct to Chip Liquid-to-Liquid CDU Solutions

冷卻解決方案的評估和優(yōu)化
為確保這些冷卻解決方案的有效性，NVIDIA采用了一系列評估標準和建模技術(shù)：
1. L2A CDU評估：

設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器

建立受控實驗室環(huán)境

根據(jù)產(chǎn)品要求進行性能評估

使用CFD/FNM（計算流體動力學(xué)/流網(wǎng)絡(luò)建模）構(gòu)建數(shù)字孿生

2. L2L CDU評估：

設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器

建立受控實驗室設(shè)置

評估L2L CDU的性能

構(gòu)建L2L CDU的物理感知數(shù)字孿生模型

3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生：
NVIDIA利用其Omniverse平臺創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許：

AI加速的數(shù)據(jù)中心設(shè)計和優(yōu)化

熱流體動力學(xué)的實時推理

虛擬測試環(huán)境

預(yù)測性故障維護

能源使用預(yù)測和碳足跡減少

圖5：AI加速數(shù)據(jù)中心數(shù)字孿生，展示了如何整合各種技術(shù)以實現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。

研究重點領(lǐng)域
為繼續(xù)推進冷卻技術(shù)，NVIDIA正在幾個關(guān)鍵領(lǐng)域進行研究：
1. 次級流體、腐蝕和侵蝕研究：

評估多種冷卻液的熱性能

使用ASTM-D1384和D8040標準進行腐蝕測試

分析冷卻液中的生物生長

進行侵蝕研究，確定ASHRAE侵蝕流體速度限制的適用性

2. 機架功率密度與DLC冷卻技術(shù)路線圖：

分析熱限制和機械限制

將冷卻技術(shù)映射到功率密度范圍

探索超高密度機架的先進冷卻技術(shù)

3. 數(shù)據(jù)中心效率和總擁有成本（TCO）分析：

比較空氣冷卻與混合空氣和液體冷卻

分析能源效率和總擁有成本（TCO）

評估可持續(xù)性策略

圖6：NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法，涵蓋了可持續(xù)設(shè)計、部署和運營、監(jiān)控和自動化以及生命周期管理等方面。

4. 廢熱回收：

開發(fā)原型，從廢熱回收單元（WHRU）生成電力

探索從液冷機架回收廢熱的可能性

與研究中心合作優(yōu)化廢熱利用

5. ARPA-E COOLERCHIPS項目：OMNICOOL
NVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項目，專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項目目標包括：

使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率（目標：PUE

提高功率密度挑戰(zhàn)（目標：>160 kW/機架）

克服地理位置和天氣限制（目標：適合ISO 40'集裝箱，環(huán)境溫度≥40 °C）

強調(diào)環(huán)境影響和可持續(xù)性（目標：GWP

該項目包含幾項創(chuàng)新：

創(chuàng)新的兩相多孔金屬冷板技術(shù)

用于緊湊型自由冷卻器的非正交、互鎖線圈陣列

機架內(nèi)分布式泵送和流分離系統(tǒng)

利用分層架構(gòu)的多尺度流分配系統(tǒng)

結(jié)論
隨著繼續(xù)推動AI和加速計算的邊界，冷卻技術(shù)在實現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法，從空氣冷卻到先進的液體冷卻系統(tǒng)，確保數(shù)據(jù)中心能夠滿足AI工作負載日益增長的需求，同時保持效率和可持續(xù)性。

通過利用數(shù)字孿生、AI驅(qū)動優(yōu)化和創(chuàng)新冷卻設(shè)計等前沿技術(shù)，NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來，對可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對明天AI工廠挑戰(zhàn)的關(guān)鍵。

計算效率和性能的提升之路仍在繼續(xù)，冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿，數(shù)據(jù)中心運營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施，以推動人工智能和高性能計算的下一波創(chuàng)新。

# e. ?5 V+ ]$ }# V, j
參考文獻
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.

- END -

軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點擊左下角"閱讀原文"馬上申請

歡迎轉(zhuǎn)載

轉(zhuǎn)載請注明出處，請勿修改內(nèi)容和刪除作者信息！

% O* @* K: ~, u7 @

關(guān)注我們

0 g7 |) d# ?/ O

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計自動化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件，提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | 下一代NVIDIA加速計算冷卻技術(shù)

發(fā)表回復(fù)

精選推薦

站長推薦 /1