|
引言* h4 Q7 g p* Q4 _3 m3 P: W
在人工智能(AI)時(shí)代,計(jì)算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對(duì)這些前所未有的挑戰(zhàn)[1]。
8 I7 O$ [4 J1 q
4 f- F3 _9 W0 H' I" _先進(jìn)冷卻技術(shù)的需求9 C8 S) ^* Q% z. j; x4 @- V6 ^
隨著AI模型日益復(fù)雜和龐大,對(duì)計(jì)算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:+ L+ |- c' w( D: }, g4 e
ri4lul5wk5s64038196008.png (274.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ri4lul5wk5s64038196008.png
4 小時(shí)前 上傳
7 ^& B& j c5 _. ^
圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個(gè)A100 GPU)到預(yù)計(jì)的下一代AI工廠(32,000個(gè)GPU,645 ExaFLOPs AI計(jì)算能力)。
9 h. _* T7 Y, p: b: V/ |4 K# b# E9 N& i& Q$ q
這些AI工廠正在推動(dòng)訓(xùn)練和推理能力的極限。然而,強(qiáng)大的計(jì)算能力也意味著巨大的熱量產(chǎn)生,因此需要先進(jìn)的冷卻解決方案來維持最佳性能和效率。% Z; B" i) a! D. Z
* Z5 @" w! f& m+ u
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系, g' Q# ^ L$ n- ?1 N5 H
為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):& u; B7 s m+ a8 \; I c& @
1 O0 B9 i$ \" {% \1. 空氣冷卻: k( V' l3 r# }( G# r- _. P
空氣冷卻仍然是低密度到中密度機(jī)架的可行選擇?諝饫鋮s有幾種方法:9 U7 X( \ C8 h3 r0 U9 y3 {
a) CRAH/CRAC空氣冷卻:
r# a/ O0 X9 {$ d3 x適用于低密度機(jī)架的房間級(jí)冷卻空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離6 p2 L+ F# {$ S
0 [+ k1 J9 r/ T) |) A6 L0 A2 f$ i
3 V4 T( [# N6 v, _$ H6 \/ a
oijiwd2m2kc64038196109.png (219.36 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
oijiwd2m2kc64038196109.png
4 小時(shí)前 上傳
5 H# s8 M4 ^8 R# D圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。: d3 \+ E9 U& @* E' m* s X
) @* F9 _0 w2 }3 Y! lb) 行間冷卻器空氣冷卻:
5 |8 h' G4 k2 p適用于中密度機(jī)架的通道級(jí)冷卻熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水可使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離
5 \, u1 y( P. Z4 A; ~8 w. Y5 u
- N R% ^' e, M# D* S* M+ N2 `c) 后門熱交換器(RDHX)空氣冷卻:
8 H( P* b; Y$ F* b3 J" o適用于中密度機(jī)架的機(jī)架級(jí)局部冷卻空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水可獨(dú)立使用或與CRAH單元配合使用作為輔助冷卻
* U7 I/ g* H: K9 e1 ^1 o2 }; C9 } C5 O
2. 混合空氣和液體冷卻7 E8 W3 W) N2 B" c) Y/ P: w
隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:% [! g7 l, V) G
a) 液體到空氣側(cè)車(L2A)液體冷卻:* m* y) |" ^2 ^0 Y2 u& f
適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻無需額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,冷卻能力有限
9 q/ h0 j9 k. p$ } X# \ f& w, d' B* }# |% e9 [) E
5 v I' N6 x3 o3 L0 z: i% S: c- x
lz0lpi20t2v64038196209.png (213.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
lz0lpi20t2v64038196209.png
4 小時(shí)前 上傳
! X! }8 I6 e0 c. U$ U2 Y! N4 N圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。
" `4 m7 V2 o/ E' i, Y1 @
7 l! i! j* O X0 `; y; A4 wb) 液體到液體CDU(L2L)液體冷卻:5 S/ Z, H" H. F: e7 R6 k+ k+ l3 z
適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻行級(jí)冷卻分配單元可在緊湊的CDU單元中移除兆瓦級(jí)IT熱量需要額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,單相液體冷卻的極限% G/ {" h# {0 Z$ B2 {
) i* I$ v# P+ Z' Q
3. 直接芯片液體冷卻
4 v3 r, x4 o& b對(duì)于最高密度的機(jī)架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:0 @+ F& E3 b4 d# G1 }% u/ g
液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力功耗約為名義冷卻能力的1%
: v# l3 P' f* y4 U) a& G
6 k2 E4 H4 h% |
9 R f4 n1 e5 k+ x/ @3 e
paaeklfbdzd64038196309.png (271.3 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
paaeklfbdzd64038196309.png
4 小時(shí)前 上傳
* B2 N6 G4 P/ L圖4:Direct to Chip Liquid-to-Liquid CDU Solutions1 G# K! {1 ~7 D9 `5 }
* a' \ D" d, Y8 M; h& k冷卻解決方案的評(píng)估和優(yōu)化5 y; i$ e; [$ P
為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評(píng)估標(biāo)準(zhǔn)和建模技術(shù):
& u' D6 d% |, W. \) h1 J, z4 j! I* J1. L2A CDU評(píng)估:
5 r8 X# N3 c, m2 T% W: Y! |設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實(shí)驗(yàn)室環(huán)境根據(jù)產(chǎn)品要求進(jìn)行性能評(píng)估使用CFD/FNM(計(jì)算流體動(dòng)力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
: F+ B" f' [" X1 ?2 u) }% |+ M4 u
% p6 U) J& Z* M0 }2. L2L CDU評(píng)估:
& W0 e2 V, W5 ? s" B2 n設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實(shí)驗(yàn)室設(shè)置評(píng)估L2L CDU的性能構(gòu)建L2L CDU的物理感知數(shù)字孿生模型/ q+ ], R/ v* P* b: R8 l1 S' f+ |7 q
* O0 B* m, @! k& B* _
3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:3 s+ @8 h1 j3 s7 t, Z( ^# b
NVIDIA利用其Omniverse平臺(tái)創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:
+ v/ K$ F3 x6 I9 }AI加速的數(shù)據(jù)中心設(shè)計(jì)和優(yōu)化熱流體動(dòng)力學(xué)的實(shí)時(shí)推理虛擬測試環(huán)境預(yù)測性故障維護(hù)能源使用預(yù)測和碳足跡減少6 q: g, c5 g8 W" h
8 m; Z$ W7 K6 L* C: X+ o6 |, K& C5 P$ F( S: A
izjqjwuft5164038196409.png (379.98 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
izjqjwuft5164038196409.png
4 小時(shí)前 上傳
" k/ A- c# v3 @* [9 ]
圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實(shí)現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。" {- N. Z( S) \
* |6 Z* g2 s2 C7 I2 F$ l( d S研究重點(diǎn)領(lǐng)域
9 ~9 |! A* j6 E+ a7 J, T為繼續(xù)推進(jìn)冷卻技術(shù),NVIDIA正在幾個(gè)關(guān)鍵領(lǐng)域進(jìn)行研究:) L% [& M: {9 I+ d8 Y1 Q0 T
1. 次級(jí)流體、腐蝕和侵蝕研究:8 b# g4 P5 i0 P/ p& d! A) E+ C4 |2 a
評(píng)估多種冷卻液的熱性能使用ASTM-D1384和D8040標(biāo)準(zhǔn)進(jìn)行腐蝕測試分析冷卻液中的生物生長進(jìn)行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性
8 J3 h# G! f( ]5 T- h: U" G9 D+ L9 G8 E: b
2. 機(jī)架功率密度與DLC冷卻技術(shù)路線圖:' \0 M! @6 j% B
分析熱限制和機(jī)械限制將冷卻技術(shù)映射到功率密度范圍探索超高密度機(jī)架的先進(jìn)冷卻技術(shù)9 X3 |, n- O- x( J! K( @0 I
3 e( F, Z# y& J0 q3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:
6 p8 ^" k6 V+ X3 Z p比較空氣冷卻與混合空氣和液體冷卻分析能源效率和總擁有成本(TCO)評(píng)估可持續(xù)性策略
}0 w6 Y8 m* k( b. j" Y, g
4 ~ \* x; j+ m6 e; X
9 Y7 T t, y& r' m6 r
qof3nhjtbd564038196510.png (146.73 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
qof3nhjtbd564038196510.png
4 小時(shí)前 上傳
F( C2 F8 j2 d! w8 X圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計(jì)、部署和運(yùn)營、監(jiān)控和自動(dòng)化以及生命周期管理等方面。
8 U1 y7 ^7 m, `9 k* v
( [( g- g/ A7 P; r4 F& v4. 廢熱回收:
" A: m$ s; Z% L開發(fā)原型,從廢熱回收單元(WHRU)生成電力探索從液冷機(jī)架回收廢熱的可能性與研究中心合作優(yōu)化廢熱利用# F; {9 |9 `/ i: d
5 W8 P/ W. t' z7 _4 D4 j$ W* ?1 M
5. ARPA-E COOLERCHIPS項(xiàng)目:OMNICOOL
" u: ^( X) G' ~- e# X9 MNVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項(xiàng)目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項(xiàng)目目標(biāo)包括:
) u3 _; J7 D! m8 w使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標(biāo):PUE 提高功率密度挑戰(zhàn)(目標(biāo):>160 kW/機(jī)架)克服地理位置和天氣限制(目標(biāo):適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)強(qiáng)調(diào)環(huán)境影響和可持續(xù)性(目標(biāo):GWP
$ i% W( Z" N/ \9 x5 p, r! K; ?! \3 U1 w- {% B
該項(xiàng)目包含幾項(xiàng)創(chuàng)新:
m7 B! C, o* O$ G! p創(chuàng)新的兩相多孔金屬冷板技術(shù)用于緊湊型自由冷卻器的非正交、互鎖線圈陣列機(jī)架內(nèi)分布式泵送和流分離系統(tǒng)利用分層架構(gòu)的多尺度流分配系統(tǒng)5 F* l& U! E6 j- R$ m; V2 t3 i% N0 \
2 g0 v' R# Z0 G& ?, n
結(jié)論
* m3 @0 J' K* }/ h隨著繼續(xù)推動(dòng)AI和加速計(jì)算的邊界,冷卻技術(shù)在實(shí)現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進(jìn)的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長的需求,同時(shí)保持效率和可持續(xù)性。
( W% r$ u! i* y9 Y* a( D4 {
) ]* ~/ O) |, G$ r* H) P3 ~0 ~通過利用數(shù)字孿生、AI驅(qū)動(dòng)優(yōu)化和創(chuàng)新冷卻設(shè)計(jì)等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對(duì)可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對(duì)明天AI工廠挑戰(zhàn)的關(guān)鍵。3 B, K' V( `6 n) ~. l5 y8 D
3 k7 e0 R% |1 t/ Z' b/ K' Z: F計(jì)算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運(yùn)營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動(dòng)人工智能和高性能計(jì)算的下一波創(chuàng)新。7 M' V! [ R+ E$ u; w N
8 d" q4 t6 K: ?: }* o6 l
% s% @3 T. R7 J# O
參考文獻(xiàn)
2 U2 l4 A/ D/ d( q[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.# J( y7 R1 v; f
' E0 D. g" J; d4 j6 o& @- END -) {' Z( h/ O; G8 i; E+ Y5 j! K
9 k" h7 y/ A4 H( L
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
$ ~; d ~, b% U1 ` x6 o% B6 D8 j點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
0 t" s5 v1 E x p9 H! h3 h" |1 F& l& j/ k j
歡迎轉(zhuǎn)載
! ~, f; g1 s5 e9 O4 g* b c; B; g% P' U: \
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
9 T- [" W3 a: P! s
7 s' s9 e: k: U3 o( K7 T V
0 c. f2 v% ?; r) a( y% R
M, _$ {: J) o A) a
rpj52bnqmgr64038196610.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
rpj52bnqmgr64038196610.gif
4 小時(shí)前 上傳
6 X U% v! r. [1 ]$ y( [9 W! R9 P* a) |8 F8 p1 C" q
關(guān)注我們+ D4 @$ m$ ]& m! C4 P7 r1 G' i9 I5 B
( I% o4 |" {, F1 {* p a; X3 c
% ?3 q- w; L3 e& e/ w( p
et0tl4guaub64038196710.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
et0tl4guaub64038196710.png
4 小時(shí)前 上傳
! `# d; w. q5 c
|
" J& U0 J7 }4 z4 D/ f/ P
xklfdrehrcu64038196810.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
xklfdrehrcu64038196810.png
4 小時(shí)前 上傳
- |# A# c* `' _) p- V |
7 \. d p. Q, ]$ q
a1aceo5ifow64038196910.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
a1aceo5ifow64038196910.png
4 小時(shí)前 上傳
# O' T8 v& R3 z$ w; j) o
|
( m- g' m" X" ?5 D0 F
( u; `* G% t: f; O9 K, R! R+ x, O* N; X
; {4 \0 V) C3 m4 I關(guān)于我們:3 a( d* L! p, w5 i, p& @
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。( j, W T( \# P
5 Q) p6 T. ^0 h8 h" x
http://www.latitudeda.com/$ _/ r/ r' f! n$ X
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|