|
引言* O; g* T- }! f$ @+ F6 n
在人工智能(AI)時(shí)代,計(jì)算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對(duì)這些前所未有的挑戰(zhàn)[1]。) y& M% z, n Z! W3 A
- R q' V/ j1 y" U2 t. r
先進(jìn)冷卻技術(shù)的需求
8 J) u% D/ N: t; ?! c* b R& f& S隨著AI模型日益復(fù)雜和龐大,對(duì)計(jì)算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:+ a5 n3 b9 M8 J- Q/ j
ri4lul5wk5s64038196008.png (274.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ri4lul5wk5s64038196008.png
2 小時(shí)前 上傳
0 c% Z6 s; k2 r# a' o5 y
圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個(gè)A100 GPU)到預(yù)計(jì)的下一代AI工廠(32,000個(gè)GPU,645 ExaFLOPs AI計(jì)算能力)。
1 k: |7 v: u" J- q7 J; o
6 g' y9 e2 l& \7 e& A這些AI工廠正在推動(dòng)訓(xùn)練和推理能力的極限。然而,強(qiáng)大的計(jì)算能力也意味著巨大的熱量產(chǎn)生,因此需要先進(jìn)的冷卻解決方案來維持最佳性能和效率。
* @) I4 [3 S; i+ t! E1 v3 N* V, Q2 t8 a
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系2 |) ~4 u3 u a; Y3 p* K. F9 @
為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):) l. l$ p, m6 m& X, ?" S
$ C. P' \* x$ _
1. 空氣冷卻
6 W w0 G |: Q; I0 v空氣冷卻仍然是低密度到中密度機(jī)架的可行選擇。空氣冷卻有幾種方法:
6 r& }! h; Z4 r: Wa) CRAH/CRAC空氣冷卻:
- P2 q% ^# S: ^* J* N適用于低密度機(jī)架的房間級(jí)冷卻空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離
: W3 {1 X- Y, F2 Z* }
3 N: p4 V0 O# j- r. C; @8 H0 A! B0 M' U3 F
oijiwd2m2kc64038196109.png (219.36 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
oijiwd2m2kc64038196109.png
2 小時(shí)前 上傳
9 R E1 P0 E+ H0 j圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。& x. g& @' k3 v( H
4 x! h& Y" I3 g
b) 行間冷卻器空氣冷卻:
# }: e& _1 n/ N# T0 c" B9 e, O1 }0 x適用于中密度機(jī)架的通道級(jí)冷卻熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水可使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離
; u- k$ `2 k* A0 A% c) B1 u
" c' n. |2 V) R- d& W. J- ?c) 后門熱交換器(RDHX)空氣冷卻:6 ]; c& [, e N2 C' C3 g" z) A; ~
適用于中密度機(jī)架的機(jī)架級(jí)局部冷卻空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水可獨(dú)立使用或與CRAH單元配合使用作為輔助冷卻
; g8 m3 Z6 m' {) @+ H& d; k( y. \9 @* S7 q& \2 ~/ s
2. 混合空氣和液體冷卻
7 Z2 E- w' k( q, c* N- |隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:
# E4 U+ G5 a7 Za) 液體到空氣側(cè)車(L2A)液體冷卻:$ f, h& I* W& H6 X v) [3 s: H
適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻無需額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,冷卻能力有限/ B5 H, J4 }4 i+ W0 q
: Q/ \, `" H! Z) k! I) Q1 X+ V0 ?" F/ ~6 q! M5 q
lz0lpi20t2v64038196209.png (213.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
lz0lpi20t2v64038196209.png
2 小時(shí)前 上傳
9 Y3 S% k' I& Q: P5 U0 V
圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。
( u" x; F+ i1 g4 f% u, `
* l6 G% x) d2 N' e5 s9 yb) 液體到液體CDU(L2L)液體冷卻:9 F. ]: u) N5 c4 h
適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻行級(jí)冷卻分配單元可在緊湊的CDU單元中移除兆瓦級(jí)IT熱量需要額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,單相液體冷卻的極限
, l& { @* x9 B
' E F! \8 p! B C6 n# N3. 直接芯片液體冷卻
: e( a% }( l3 R" ?/ [, a對(duì)于最高密度的機(jī)架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:% N+ Y" K4 b$ y% n6 j
液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力功耗約為名義冷卻能力的1%4 ~) w {2 ]# N8 t
/ u3 D& E2 v8 L* ?' I6 p
3 ?3 J- d9 \/ i
paaeklfbdzd64038196309.png (271.3 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
paaeklfbdzd64038196309.png
2 小時(shí)前 上傳
; _, p8 C/ O% k+ n1 X* z% R圖4:Direct to Chip Liquid-to-Liquid CDU Solutions* Q1 m% M. ^: p9 W
4 E z7 g' r( x; L1 u
冷卻解決方案的評(píng)估和優(yōu)化
% p* m) _: F$ Y6 n: V/ V為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評(píng)估標(biāo)準(zhǔn)和建模技術(shù):! z: j2 r# Y! `
1. L2A CDU評(píng)估:
0 O* H/ J2 H( b& I! P! ]設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實(shí)驗(yàn)室環(huán)境根據(jù)產(chǎn)品要求進(jìn)行性能評(píng)估使用CFD/FNM(計(jì)算流體動(dòng)力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
$ j. h5 x! n: k! U7 P7 f+ f' T+ f" c9 |
2. L2L CDU評(píng)估:1 @8 c* Y5 ^( M9 N3 D/ {. P6 A) G
設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實(shí)驗(yàn)室設(shè)置評(píng)估L2L CDU的性能構(gòu)建L2L CDU的物理感知數(shù)字孿生模型& ]; C/ k! X) W- u- x
$ `4 x/ K! Q9 U. g; Y2 H9 Z
3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:7 _- a# v/ G: n
NVIDIA利用其Omniverse平臺(tái)創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:. \7 D) D, B/ w! E
AI加速的數(shù)據(jù)中心設(shè)計(jì)和優(yōu)化熱流體動(dòng)力學(xué)的實(shí)時(shí)推理虛擬測(cè)試環(huán)境預(yù)測(cè)性故障維護(hù)能源使用預(yù)測(cè)和碳足跡減少9 M8 X" ]7 D# u
) L$ \1 R# h7 \$ |) s& n7 Q: ]* h# E' w9 i3 k
izjqjwuft5164038196409.png (379.98 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
izjqjwuft5164038196409.png
2 小時(shí)前 上傳
2 |3 l! V' k; c' T: I# `
圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實(shí)現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。
! A& k9 m: [, Z2 q/ h1 Q G) a% J8 M: U
研究重點(diǎn)領(lǐng)域
1 T$ c: R* K8 _. @6 K$ G% k: X為繼續(xù)推進(jìn)冷卻技術(shù),NVIDIA正在幾個(gè)關(guān)鍵領(lǐng)域進(jìn)行研究:8 I* m# P; k7 e. a; X
1. 次級(jí)流體、腐蝕和侵蝕研究:
- i! A4 d8 w @) i1 Y3 A評(píng)估多種冷卻液的熱性能使用ASTM-D1384和D8040標(biāo)準(zhǔn)進(jìn)行腐蝕測(cè)試分析冷卻液中的生物生長(zhǎng)進(jìn)行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性: d; T! `! w9 W( c/ K( `. _
) p' {' [8 L& l
2. 機(jī)架功率密度與DLC冷卻技術(shù)路線圖:6 m* H& \3 }3 a0 ?; o7 S; y$ J- x
分析熱限制和機(jī)械限制將冷卻技術(shù)映射到功率密度范圍探索超高密度機(jī)架的先進(jìn)冷卻技術(shù): N4 h; I8 ~/ C; N5 X6 v
8 d& }! M! n' n5 a2 K5 t
3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:/ ?1 J, B5 M* V4 O
比較空氣冷卻與混合空氣和液體冷卻分析能源效率和總擁有成本(TCO)評(píng)估可持續(xù)性策略
/ x5 b# N! n/ J. R A; @* G3 q% a9 R7 |- x* m
) ^/ R) v. G. v
qof3nhjtbd564038196510.png (146.73 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
qof3nhjtbd564038196510.png
2 小時(shí)前 上傳
6 z E- j; P" r6 q; Y( @; Q
圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計(jì)、部署和運(yùn)營(yíng)、監(jiān)控和自動(dòng)化以及生命周期管理等方面。
: `/ k' v8 Z8 B3 `9 Z# R; y; Q) h7 j+ X- R
4. 廢熱回收:: Z. Z: L* v: i% z; d
開發(fā)原型,從廢熱回收單元(WHRU)生成電力探索從液冷機(jī)架回收廢熱的可能性與研究中心合作優(yōu)化廢熱利用
" u8 A3 P: _ `% k% {# D. I9 B
8 e9 M/ ]" H1 P6 Z: `* A4 T7 g# w5. ARPA-E COOLERCHIPS項(xiàng)目:OMNICOOL! S- Z b# f8 X
NVIDIA正參與美國(guó)能源部的ARPA-E COOLERCHIPS項(xiàng)目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項(xiàng)目目標(biāo)包括:3 l* }9 T& L+ `0 c8 }
使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標(biāo):PUE 提高功率密度挑戰(zhàn)(目標(biāo):>160 kW/機(jī)架)克服地理位置和天氣限制(目標(biāo):適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)強(qiáng)調(diào)環(huán)境影響和可持續(xù)性(目標(biāo):GWP / V% }( H" \! ]9 }9 W; E
4 l6 K2 y) V0 `6 @5 x1 @7 J該項(xiàng)目包含幾項(xiàng)創(chuàng)新:
3 i3 E2 e4 y2 L9 a$ L- k0 k0 O3 }. z創(chuàng)新的兩相多孔金屬冷板技術(shù)用于緊湊型自由冷卻器的非正交、互鎖線圈陣列機(jī)架內(nèi)分布式泵送和流分離系統(tǒng)利用分層架構(gòu)的多尺度流分配系統(tǒng)0 ~( m M; B* D% M N
( y, D, X/ f6 W2 B/ ?
結(jié)論1 b) N& U" `6 U9 f/ e+ [
隨著繼續(xù)推動(dòng)AI和加速計(jì)算的邊界,冷卻技術(shù)在實(shí)現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進(jìn)的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長(zhǎng)的需求,同時(shí)保持效率和可持續(xù)性。# S6 R$ f- y6 \" m. h
0 u1 m+ X, p" {8 J% q
通過利用數(shù)字孿生、AI驅(qū)動(dòng)優(yōu)化和創(chuàng)新冷卻設(shè)計(jì)等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對(duì)可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對(duì)明天AI工廠挑戰(zhàn)的關(guān)鍵。
0 P7 Z3 X/ _% Z
) u- E7 Y. _6 A [7 l計(jì)算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運(yùn)營(yíng)商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動(dòng)人工智能和高性能計(jì)算的下一波創(chuàng)新。) `; z" x& n' ?3 V. W1 C3 b: A
8 a; l, o4 l2 t7 x w: h7 t' z; f. J
參考文獻(xiàn) v! O9 t: \& O% c i2 A- u
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.
% m. T" l) t: p2 C4 y+ f. a, C& H) f1 ]# \( J6 V' J
- END -
: S5 k9 n" m: k/ i; v, W0 {( R0 @$ S- p* v
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。2 A* ^. A) C, ` T
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)2 Y) N7 k; }1 p9 z6 R" D6 k8 ^
6 Z, f; @) f8 |, y! h
歡迎轉(zhuǎn)載( p( t+ m N7 _
4 K1 U; }$ n: i. B% ~轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!" V# A7 s/ T w0 i& _
3 ?/ h4 u4 f- ` l& D: \0 o' G! G
' i4 z! x, {, H7 W0 Y2 k8 S$ C# R% t; E; F3 ^% N
rpj52bnqmgr64038196610.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
rpj52bnqmgr64038196610.gif
2 小時(shí)前 上傳
% B/ [9 U( T: \4 j
: ^7 [; V% E- ^! z: j) r( C
關(guān)注我們5 [6 O3 R4 T$ [
, a* Q5 y4 M! ^ [7 ]9 z% c+ i1 Z2 a c' z& p) j/ [
et0tl4guaub64038196710.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
et0tl4guaub64038196710.png
2 小時(shí)前 上傳
" V, G0 Y1 k# ^) i |
& c3 {( E) h$ F6 S3 f! c
xklfdrehrcu64038196810.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
xklfdrehrcu64038196810.png
2 小時(shí)前 上傳
# a2 t4 P' ]/ D! }6 X* Y% O
|
' t, L! \5 y# |/ @+ f, X
a1aceo5ifow64038196910.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
a1aceo5ifow64038196910.png
2 小時(shí)前 上傳
+ y) g' s" a U9 Q6 A' v: e
| 8 o- C# T% v+ o! i4 _9 y2 t
8 N" M! d' P: B: G
, ~' U+ P- u) _9 c* ~0 q \8 n1 o% }
關(guān)于我們:& [- k; ]/ H0 p# H: Z* N
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
( d* t- L8 M. |3 W& x/ u% Q1 y+ q, E& A7 t% p
http://www.latitudeda.com/8 b- F/ v. b- p n' M8 v [ R
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|