Hot Chips 2024 | 下一代NVIDIA加速計(jì)算冷卻技術(shù)

逍遙設(shè)計(jì)自動(dòng)化 · 發(fā)表于昨天 08:00

引言
在人工智能（AI）時(shí)代，計(jì)算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù)，以應(yīng)對(duì)這些前所未有的挑戰(zhàn)[1]。

先進(jìn)冷卻技術(shù)的需求
隨著AI模型日益復(fù)雜和龐大，對(duì)計(jì)算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的：

圖1：NVIDIA AI工廠的發(fā)展歷程，從2021年的Selene（4,480個(gè)A100 GPU）到預(yù)計(jì)的下一代AI工廠（32,000個(gè)GPU，645 ExaFLOPs AI計(jì)算能力）。

這些AI工廠正在推動(dòng)訓(xùn)練和推理能力的極限。然而，強(qiáng)大的計(jì)算能力也意味著巨大的熱量產(chǎn)生，因此需要先進(jìn)的冷卻解決方案來維持最佳性能和效率。

數(shù)據(jù)中心冷卻技術(shù)：解決方案譜系
為滿足不同數(shù)據(jù)中心設(shè)置的需求，NVIDIA開發(fā)了一系列冷卻技術(shù)，從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù)：

1. 空氣冷卻
空氣冷卻仍然是低密度到中密度機(jī)架的可行選擇�？諝饫鋮s有幾種方法：
a) CRAH/CRAC空氣冷卻：

適用于低密度機(jī)架的房間級(jí)冷卻

空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水

使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離

圖2：展示使用CRAH/CRAC單元的空氣冷卻設(shè)置，顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。

b) 行間冷卻器空氣冷卻：

適用于中密度機(jī)架的通道級(jí)冷卻

熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水

可使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離

c) 后門熱交換器（RDHX）空氣冷卻：

適用于中密度機(jī)架的機(jī)架級(jí)局部冷卻

空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水

可獨(dú)立使用或與CRAH單元配合使用作為輔助冷卻

2. 混合空氣和液體冷卻
隨著數(shù)據(jù)中心密度增加，結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力：
a) 液體到空氣側(cè)車（L2A）液體冷卻：

適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻

適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻

無需額外的液體冷卻基礎(chǔ)設(shè)施

過渡性解決方案，冷卻能力有限

圖3：液體到to Air Side Car（L2A）冷卻設(shè)置，演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。

b) 液體到液體CDU（L2L）液體冷卻：

適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻

行級(jí)冷卻分配單元可在緊湊的CDU單元中移除兆瓦級(jí)IT熱量

需要額外的液體冷卻基礎(chǔ)設(shè)施

過渡性解決方案，單相液體冷卻的極限

3. 直接芯片液體冷卻
對(duì)于最高密度的機(jī)架和最苛刻的冷卻需求，直接芯片液體冷卻提供了最高效的解決方案：

液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻

在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力

功耗約為名義冷卻能力的1%

圖4：Direct to Chip Liquid-to-Liquid CDU Solutions

冷卻解決方案的評(píng)估和優(yōu)化
為確保這些冷卻解決方案的有效性，NVIDIA采用了一系列評(píng)估標(biāo)準(zhǔn)和建模技術(shù)：
1. L2A CDU評(píng)估：

設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器

建立受控實(shí)驗(yàn)室環(huán)境

根據(jù)產(chǎn)品要求進(jìn)行性能評(píng)估

使用CFD/FNM（計(jì)算流體動(dòng)力學(xué)/流網(wǎng)絡(luò)建模）構(gòu)建數(shù)字孿生

2. L2L CDU評(píng)估：

設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器

建立受控實(shí)驗(yàn)室設(shè)置

評(píng)估L2L CDU的性能

構(gòu)建L2L CDU的物理感知數(shù)字孿生模型

3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生：
NVIDIA利用其Omniverse平臺(tái)創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許：

AI加速的數(shù)據(jù)中心設(shè)計(jì)和優(yōu)化

熱流體動(dòng)力學(xué)的實(shí)時(shí)推理

虛擬測試環(huán)境

預(yù)測性故障維護(hù)

能源使用預(yù)測和碳足跡減少

圖5：AI加速數(shù)據(jù)中心數(shù)字孿生，展示了如何整合各種技術(shù)以實(shí)現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。

研究重點(diǎn)領(lǐng)域
為繼續(xù)推進(jìn)冷卻技術(shù)，NVIDIA正在幾個(gè)關(guān)鍵領(lǐng)域進(jìn)行研究：
1. 次級(jí)流體、腐蝕和侵蝕研究：

評(píng)估多種冷卻液的熱性能

使用ASTM-D1384和D8040標(biāo)準(zhǔn)進(jìn)行腐蝕測試

分析冷卻液中的生物生長

進(jìn)行侵蝕研究，確定ASHRAE侵蝕流體速度限制的適用性

2. 機(jī)架功率密度與DLC冷卻技術(shù)路線圖：

分析熱限制和機(jī)械限制

將冷卻技術(shù)映射到功率密度范圍

探索超高密度機(jī)架的先進(jìn)冷卻技術(shù)

3. 數(shù)據(jù)中心效率和總擁有成本（TCO）分析：

比較空氣冷卻與混合空氣和液體冷卻

分析能源效率和總擁有成本（TCO）

評(píng)估可持續(xù)性策略

圖6：NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法，涵蓋了可持續(xù)設(shè)計(jì)、部署和運(yùn)營、監(jiān)控和自動(dòng)化以及生命周期管理等方面。

4. 廢熱回收：

開發(fā)原型，從廢熱回收單元（WHRU）生成電力

探索從液冷機(jī)架回收廢熱的可能性

與研究中心合作優(yōu)化廢熱利用

5. ARPA-E COOLERCHIPS項(xiàng)目：OMNICOOL
NVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項(xiàng)目，專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項(xiàng)目目標(biāo)包括：

使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率（目標(biāo)：PUE

提高功率密度挑戰(zhàn)（目標(biāo)：>160 kW/機(jī)架）

克服地理位置和天氣限制（目標(biāo)：適合ISO 40'集裝箱，環(huán)境溫度≥40 °C）

強(qiáng)調(diào)環(huán)境影響和可持續(xù)性（目標(biāo)：GWP

該項(xiàng)目包含幾項(xiàng)創(chuàng)新：

創(chuàng)新的兩相多孔金屬冷板技術(shù)

用于緊湊型自由冷卻器的非正交、互鎖線圈陣列

機(jī)架內(nèi)分布式泵送和流分離系統(tǒng)

利用分層架構(gòu)的多尺度流分配系統(tǒng)

結(jié)論
隨著繼續(xù)推動(dòng)AI和加速計(jì)算的邊界，冷卻技術(shù)在實(shí)現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法，從空氣冷卻到先進(jìn)的液體冷卻系統(tǒng)，確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長的需求，同時(shí)保持效率和可持續(xù)性。

通過利用數(shù)字孿生、AI驅(qū)動(dòng)優(yōu)化和創(chuàng)新冷卻設(shè)計(jì)等前沿技術(shù)，NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來，對(duì)可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對(duì)明天AI工廠挑戰(zhàn)的關(guān)鍵。

計(jì)算效率和性能的提升之路仍在繼續(xù)，冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿，數(shù)據(jù)中心運(yùn)營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施，以推動(dòng)人工智能和高性能計(jì)算的下一波創(chuàng)新。
8 d" q4 t6 K: ?: }* o6 l

參考文獻(xiàn)
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.

- END -

軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用，PIC Studio都可提升您的工作效能。
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)

歡迎轉(zhuǎn)載

轉(zhuǎn)載請(qǐng)注明出處，請(qǐng)勿修改內(nèi)容和刪除作者信息！

0 c. f2 v% ?; r) a( y% R

關(guān)注我們

( u; `* G% t: f; O9 K

關(guān)于我們：
深圳逍遙科技有限公司（Latitude Design Automation Inc.）是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化（EDA）的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件，提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio，分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù)，廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作，推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展，致力于為客戶提供前沿技術(shù)與服務(wù)。

http://www.latitudeda.com/
（點(diǎn)擊上方名片關(guān)注我們，發(fā)現(xiàn)更多精彩內(nèi)容）

Hot Chips 2024 | 下一代NVIDIA加速計(jì)算冷卻技術(shù)

發(fā)表回復(fù)

精選推薦

站長推薦 /1