|
引言, i6 g4 m8 w T
在人工智能(AI)時代,計算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對這些前所未有的挑戰(zhàn)[1]。" O, @1 S3 z3 n
$ L/ O* l5 O6 e- E# o先進冷卻技術(shù)的需求
2 L+ N W, ]! o2 P+ z隨著AI模型日益復(fù)雜和龐大,對計算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:0 y" P9 E0 v5 s& w/ o' o$ ?4 t
ri4lul5wk5s64038196008.png (274.58 KB, 下載次數(shù): 3)
下載附件
保存到相冊
ri4lul5wk5s64038196008.png
8 小時前 上傳
" y9 I9 m& n+ g3 n
圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個A100 GPU)到預(yù)計的下一代AI工廠(32,000個GPU,645 ExaFLOPs AI計算能力)。% t' U/ ^; I3 c) M
( v; U3 r3 M& m! i這些AI工廠正在推動訓(xùn)練和推理能力的極限。然而,強大的計算能力也意味著巨大的熱量產(chǎn)生,因此需要先進的冷卻解決方案來維持最佳性能和效率。
/ B/ P$ m8 y9 ^5 R1 n& Z/ x4 X0 H3 m C/ m, P- ]
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系
% n7 @4 l' k% n* h! k, E, S) d為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):% J5 d% g5 `2 J) x q8 J0 S2 t% p, i
% }: l1 S) C) A" w
1. 空氣冷卻% e6 c, \ v5 i4 U
空氣冷卻仍然是低密度到中密度機架的可行選擇。空氣冷卻有幾種方法:6 @+ {2 D& ~: c+ g
a) CRAH/CRAC空氣冷卻:
2 M) b- H) n9 G0 n- C: M& `適用于低密度機架的房間級冷卻空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離" h" z* V# V* r7 L% F
# a% o8 K1 Q7 l: y# @. _; o3 o% O7 D
+ z7 @- Q+ r6 g2 M6 N
oijiwd2m2kc64038196109.png (219.36 KB, 下載次數(shù): 3)
下載附件
保存到相冊
oijiwd2m2kc64038196109.png
8 小時前 上傳
/ T6 ]* e+ v( d* G( k' r( O# _
圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。% m9 E, q- W- n% s
3 o# X: q# I! b# g
b) 行間冷卻器空氣冷卻:$ @! n$ v% ? F8 h3 k
適用于中密度機架的通道級冷卻熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水可使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離! S! v" ]) X4 O' y4 v" g& p6 { l0 B
E/ }: \8 g- L0 q. v# w$ @. Bc) 后門熱交換器(RDHX)空氣冷卻:, Y4 G* \0 g% }! x8 n; O
適用于中密度機架的機架級局部冷卻空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水可獨立使用或與CRAH單元配合使用作為輔助冷卻
0 ~/ |7 U0 X: m8 o9 ^/ v4 J
, J0 j9 e+ L/ a8 m2. 混合空氣和液體冷卻
9 r2 U3 F' Y: U* d! @隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:9 `( T3 W& ]2 R" Y' J# E( Z! `
a) 液體到空氣側(cè)車(L2A)液體冷卻:3 `6 Y- D [ d2 o1 ]
適用于高密度機架的通道級空氣/液體混合冷卻適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻無需額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,冷卻能力有限5 U$ ?& W. r5 m D# s
# q& g: J" o+ a$ a9 q
. N( D! I9 _3 n! i% p3 e
lz0lpi20t2v64038196209.png (213.4 KB, 下載次數(shù): 3)
下載附件
保存到相冊
lz0lpi20t2v64038196209.png
8 小時前 上傳
, c8 q6 V# {/ N
圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。" ]3 G: U. E$ s: I7 O( ^
7 Y6 q- B$ K6 K$ G! W: n/ G% eb) 液體到液體CDU(L2L)液體冷卻:
" d, v4 H8 K0 |; {適用于高密度機架的通道級空氣/液體混合冷卻行級冷卻分配單元可在緊湊的CDU單元中移除兆瓦級IT熱量需要額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,單相液體冷卻的極限
$ d4 _& d- D3 b) V( {0 S5 ~
( \( ]+ F M3 E' g3. 直接芯片液體冷卻
( O1 e: m0 ~4 J# O對于最高密度的機架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:5 Z. q9 r% P8 W' }6 G1 g: ?" h
液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力功耗約為名義冷卻能力的1%
* d: L6 s4 d" f# m/ W1 |1 l+ a
0 h+ l1 ]( W2 K& F( s5 u& ^
paaeklfbdzd64038196309.png (271.3 KB, 下載次數(shù): 2)
下載附件
保存到相冊
paaeklfbdzd64038196309.png
8 小時前 上傳
. K4 Y% }( b5 X- h8 I8 x圖4:Direct to Chip Liquid-to-Liquid CDU Solutions
( ^( I' K4 a/ I" C* r4 U* d/ |: H2 p7 V! \( o
冷卻解決方案的評估和優(yōu)化
c- Q( W/ s8 K5 A: s7 ^' B為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評估標準和建模技術(shù):6 [- u9 r: q! u" X/ X, h
1. L2A CDU評估:
' t- T1 U; a2 t1 R設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實驗室環(huán)境根據(jù)產(chǎn)品要求進行性能評估使用CFD/FNM(計算流體動力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
0 `$ \/ A" r& w9 b+ Q% X- Z3 d' k- I& k' A) g3 i& @/ D
2. L2L CDU評估:! i% U' U7 L% U, D. v
設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實驗室設(shè)置評估L2L CDU的性能構(gòu)建L2L CDU的物理感知數(shù)字孿生模型6 Z! \, Y0 }2 x! J8 Q& Q( N0 C
$ W) ^3 Y+ w- v0 r1 Q4 s
3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:
* d# x I0 L, }* H0 ~5 PNVIDIA利用其Omniverse平臺創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:; [2 N/ V1 }& q4 G3 z& i' S
AI加速的數(shù)據(jù)中心設(shè)計和優(yōu)化熱流體動力學(xué)的實時推理虛擬測試環(huán)境預(yù)測性故障維護能源使用預(yù)測和碳足跡減少
/ Q! l/ `4 @8 ~/ i; M& ^% ]0 _% j9 m. {
w: P9 [3 b+ _' A
izjqjwuft5164038196409.png (379.98 KB, 下載次數(shù): 3)
下載附件
保存到相冊
izjqjwuft5164038196409.png
8 小時前 上傳
! ~' f% ^; e* M圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。
2 x2 L# F7 B; @4 W8 }0 R$ w$ Y) U
研究重點領(lǐng)域- v+ C E6 V/ S1 z3 M0 p0 @! R
為繼續(xù)推進冷卻技術(shù),NVIDIA正在幾個關(guān)鍵領(lǐng)域進行研究:
+ q' ?; \7 l3 g1 ~1. 次級流體、腐蝕和侵蝕研究:. B h0 I( \% G1 Q2 g, ]; {
評估多種冷卻液的熱性能使用ASTM-D1384和D8040標準進行腐蝕測試分析冷卻液中的生物生長進行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性2 }1 v+ \0 v7 b9 [* m
/ d# r9 M6 O; H" D- _ j( u
2. 機架功率密度與DLC冷卻技術(shù)路線圖:
7 z. @5 Q8 ~- Q" E7 `分析熱限制和機械限制將冷卻技術(shù)映射到功率密度范圍探索超高密度機架的先進冷卻技術(shù)7 N4 w% c9 _; u3 U$ u3 E" G1 u9 K
% Z/ Z, `* x. s- B1 G/ R; U, S
3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:4 u/ J0 U# I* K
比較空氣冷卻與混合空氣和液體冷卻分析能源效率和總擁有成本(TCO)評估可持續(xù)性策略' |2 O2 F% k- ^
* T6 v' ?$ K' n
" f4 r3 O3 R# B) K$ ?
qof3nhjtbd564038196510.png (146.73 KB, 下載次數(shù): 3)
下載附件
保存到相冊
qof3nhjtbd564038196510.png
8 小時前 上傳
0 k! h7 d5 k) U# p圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計、部署和運營、監(jiān)控和自動化以及生命周期管理等方面。/ M, r+ Y3 H$ q2 A" E" {3 \' A( B
/ _0 T! n( K$ j3 H
4. 廢熱回收: r$ x; e! i2 u9 x7 k1 [. x) C) _
開發(fā)原型,從廢熱回收單元(WHRU)生成電力探索從液冷機架回收廢熱的可能性與研究中心合作優(yōu)化廢熱利用
. C p. {# W! ` |( H6 e+ Q+ e" }! P2 W
5. ARPA-E COOLERCHIPS項目:OMNICOOL
1 w& h3 O6 w3 D! v7 qNVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項目目標包括:, I- M4 D) e1 K: z
使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標:PUE 提高功率密度挑戰(zhàn)(目標:>160 kW/機架)克服地理位置和天氣限制(目標:適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)強調(diào)環(huán)境影響和可持續(xù)性(目標:GWP 5 w: w+ e! P4 ^7 w2 E/ D
; @ b6 e1 @# x2 [% N
該項目包含幾項創(chuàng)新:
# r ?" ?8 M1 S, b1 U) Z, o創(chuàng)新的兩相多孔金屬冷板技術(shù)用于緊湊型自由冷卻器的非正交、互鎖線圈陣列機架內(nèi)分布式泵送和流分離系統(tǒng)利用分層架構(gòu)的多尺度流分配系統(tǒng)0 _8 s1 q' \1 f- K6 r
3 C, p$ G2 j# D9 n) J% J結(jié)論
/ u2 S, G {: A; B' _* l8 Z* B+ h隨著繼續(xù)推動AI和加速計算的邊界,冷卻技術(shù)在實現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負載日益增長的需求,同時保持效率和可持續(xù)性。
9 t/ I- b- S9 N
8 l% S0 B; D* g: H. G- B; ?通過利用數(shù)字孿生、AI驅(qū)動優(yōu)化和創(chuàng)新冷卻設(shè)計等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對明天AI工廠挑戰(zhàn)的關(guān)鍵。
$ k: `8 k4 g9 K) _+ A6 K0 ^# E- }5 o
計算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動人工智能和高性能計算的下一波創(chuàng)新。2 D* U7 ?8 p; o v" U# F8 w3 g
# e. ?5 V+ ]$ }# V, j
0 i& a5 @& z/ Y參考文獻1 N7 \6 \5 \- X1 ?
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.
0 ]& `8 L' W) S7 s% z
( y3 b' `# o Z. o; U- END -
; [( U, l+ p$ P6 D" E6 ?! o+ t, `- g8 q1 X
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
6 J. V4 j* d% Q點擊左下角"閱讀原文"馬上申請
! P7 c7 `6 B K6 Q$ f% H; o" Y, r
) j: w4 D1 T( Z( A: v) \歡迎轉(zhuǎn)載
( [* v8 O1 S8 _3 Y3 x1 `* f( p( x& z ~3 B+ N) L: T( C5 V9 _. V
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
5 ^/ ^% {# ]: _7 }$ U
. f( f' U4 L: k
% O* @* K: ~, u7 @
8 z2 x3 D1 E7 A- @+ I! ^/ J+ J5 T
rpj52bnqmgr64038196610.gif (16.04 KB, 下載次數(shù): 3)
下載附件
保存到相冊
rpj52bnqmgr64038196610.gif
8 小時前 上傳
$ m& f: I( N# M* H& f+ w
- T' F! {6 J- ]關(guān)注我們
0 P1 h7 V7 N( s& s+ [+ d& ^# ]- @- R- c1 ^9 i; }
( T* W k! B% V% b
et0tl4guaub64038196710.png (31.33 KB, 下載次數(shù): 3)
下載附件
保存到相冊
et0tl4guaub64038196710.png
8 小時前 上傳
5 ]7 _9 f- u9 c8 e
|
6 g9 S0 W6 ~, I/ s+ V
xklfdrehrcu64038196810.png (82.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊
xklfdrehrcu64038196810.png
8 小時前 上傳
* Y" W1 _2 Y- u; r; R
|
/ _: L+ }; H: F% O0 j- q4 o
a1aceo5ifow64038196910.png (21.52 KB, 下載次數(shù): 3)
下載附件
保存到相冊
a1aceo5ifow64038196910.png
8 小時前 上傳
& i& C4 y: r* h: e( M: r: h | - C Z( u! i' p1 t
0 g7 |) d# ?/ O
/ D7 P3 q' x* u" j8 Y; }5 c
3 X u1 @8 p# Q- N0 }3 q關(guān)于我們:4 {; E, y- j* J1 [
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
/ ?1 @) I8 S' K' O3 F; M0 C* m# O* Z
http://www.latitudeda.com/5 R, R' J6 m1 w6 P* i1 Y# I3 @8 l
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|