|
引言; C% T! d* f: U4 g) F; D6 ~5 u
在人工智能(AI)時代,計算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對這些前所未有的挑戰(zhàn)[1]。: \8 n& n' n! U% g# G
2 |4 q; a9 a7 v先進冷卻技術(shù)的需求
2 h) J- F% _4 ~* s. c1 J, s隨著AI模型日益復(fù)雜和龐大,對計算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:/ G$ F" U8 f# q( _2 r
ri4lul5wk5s64038196008.png (274.58 KB, 下載次數(shù): 2)
下載附件
保存到相冊
ri4lul5wk5s64038196008.png
6 小時前 上傳
; ~- n* U |! H& Z圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個A100 GPU)到預(yù)計的下一代AI工廠(32,000個GPU,645 ExaFLOPs AI計算能力)。0 n: ]) l* [2 o
2 I2 d8 |8 j" K4 H: N( Z
這些AI工廠正在推動訓(xùn)練和推理能力的極限。然而,強大的計算能力也意味著巨大的熱量產(chǎn)生,因此需要先進的冷卻解決方案來維持最佳性能和效率。
3 t+ }; i5 Z6 Q; A3 i+ [ |: B0 K( x) Z( p
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系9 B: m5 x! F) `. u
為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):
7 L; j% o5 {: f. t' }+ ~+ x
! }4 F" Q2 u" p9 s$ T1. 空氣冷卻
# m3 [8 s6 X; C6 a空氣冷卻仍然是低密度到中密度機架的可行選擇?諝饫鋮s有幾種方法:
0 n7 c" m& Q8 n) n- h/ y# c7 ga) CRAH/CRAC空氣冷卻:
/ K$ I) ~6 S# Q I: z; Y適用于低密度機架的房間級冷卻空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離
# S3 e! ]* Y+ P/ k
6 B; Q# g9 p) p* z* Y) S% F4 {" x3 Z
oijiwd2m2kc64038196109.png (219.36 KB, 下載次數(shù): 2)
下載附件
保存到相冊
oijiwd2m2kc64038196109.png
6 小時前 上傳
# U8 ^9 T( b+ F& I圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。
" n; P' b' v5 {; @3 k
- G) `; H; e7 P4 c' a6 _b) 行間冷卻器空氣冷卻:
9 \" c& R: ]- z+ |' g適用于中密度機架的通道級冷卻熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水可使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離0 l* K& j: M! n8 s9 K" \
# S2 ], r+ h E, z1 T4 T
c) 后門熱交換器(RDHX)空氣冷卻:
1 o9 t: e* M, H; b% d. ?5 ?' w& T適用于中密度機架的機架級局部冷卻空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水可獨立使用或與CRAH單元配合使用作為輔助冷卻5 _6 _- N; n! i [6 r+ b! Q
. O: v8 @8 [- {* G$ s2 u9 D
2. 混合空氣和液體冷卻' g2 {2 T4 E1 K& q/ }) e
隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:
) Z! T) j/ r8 {. N7 R% }/ ~( |" Sa) 液體到空氣側(cè)車(L2A)液體冷卻:" Y+ j; g) M0 a" W9 Q' M
適用于高密度機架的通道級空氣/液體混合冷卻適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻無需額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,冷卻能力有限
" |3 [7 Y2 b1 |& Q( p# E, l b) K1 ?9 h0 y( A8 h' x! p
1 `7 I! O1 P2 s
lz0lpi20t2v64038196209.png (213.4 KB, 下載次數(shù): 1)
下載附件
保存到相冊
lz0lpi20t2v64038196209.png
6 小時前 上傳
6 g: t9 p- e* b! m圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。
% `- E/ @8 U2 G( [% d
- ~( G+ D+ H3 u& m$ a8 \b) 液體到液體CDU(L2L)液體冷卻:7 K* b# x' P. P5 E
適用于高密度機架的通道級空氣/液體混合冷卻行級冷卻分配單元可在緊湊的CDU單元中移除兆瓦級IT熱量需要額外的液體冷卻基礎(chǔ)設(shè)施過渡性解決方案,單相液體冷卻的極限, l1 U- c; z: |4 c
7 E' F" m- f) F# B
3. 直接芯片液體冷卻5 Z, W: {) F7 L! @- u8 F! w& B! L% [+ I
對于最高密度的機架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:
" i/ D7 \. K9 B& B( w1 {2 K液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力功耗約為名義冷卻能力的1%
$ `' \' y. N6 I/ l3 ]9 O7 n% H
+ [; X& r. l+ U- U7 O; @4 W
X( n( P8 H L& ]3 t+ l* T; D- C: F
paaeklfbdzd64038196309.png (271.3 KB, 下載次數(shù): 1)
下載附件
保存到相冊
paaeklfbdzd64038196309.png
6 小時前 上傳
# S7 j: P" `- i+ E$ S4 h q8 X! q圖4:Direct to Chip Liquid-to-Liquid CDU Solutions0 ]% ?: N/ F! Q1 H& l/ O3 |
( I6 Z0 U/ S) c
冷卻解決方案的評估和優(yōu)化
) I- A4 M7 ]; |: T [! S# @為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評估標(biāo)準(zhǔn)和建模技術(shù):' |8 Y0 G. `4 }0 v8 p
1. L2A CDU評估:; n- j P# K) w; _( `& ^
設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實驗室環(huán)境根據(jù)產(chǎn)品要求進行性能評估使用CFD/FNM(計算流體動力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
' I5 K+ g% q8 {, `9 k7 u
% x$ Y( f2 r4 K# p% {) Q* [2. L2L CDU評估:
# z% J2 Y' M+ f1 d6 \設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器建立受控實驗室設(shè)置評估L2L CDU的性能構(gòu)建L2L CDU的物理感知數(shù)字孿生模型
3 [* I8 Z# z. ?- G2 q, _, ^; T. T, r4 t: I5 S+ J
3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:/ K C( f5 E+ T3 f; U
NVIDIA利用其Omniverse平臺創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:
# ]$ V* T" g# W9 c" tAI加速的數(shù)據(jù)中心設(shè)計和優(yōu)化熱流體動力學(xué)的實時推理虛擬測試環(huán)境預(yù)測性故障維護能源使用預(yù)測和碳足跡減少
- ]' Q+ Z, m5 K/ i9 q2 d$ {7 b+ U; E0 H6 l- M& a* w+ C0 N
4 ?( |5 ~# F/ D, W; a; x' Z
izjqjwuft5164038196409.png (379.98 KB, 下載次數(shù): 2)
下載附件
保存到相冊
izjqjwuft5164038196409.png
6 小時前 上傳
) n! A j9 m( E2 j' c圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。
+ v% ?+ ]* E, r8 ~
1 M( @9 P3 s! v) G( S8 g研究重點領(lǐng)域6 K! u3 q \1 P2 {% P7 g' \
為繼續(xù)推進冷卻技術(shù),NVIDIA正在幾個關(guān)鍵領(lǐng)域進行研究:
+ K0 i y8 d1 q1. 次級流體、腐蝕和侵蝕研究:) `% m' H D# i9 P/ q
評估多種冷卻液的熱性能使用ASTM-D1384和D8040標(biāo)準(zhǔn)進行腐蝕測試分析冷卻液中的生物生長進行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性; ^& l9 ], k" _' {0 m% r
; Q. h7 a4 k& Y" M4 ^
2. 機架功率密度與DLC冷卻技術(shù)路線圖:% R. Z6 { R4 o+ x5 ^1 l0 g. }
分析熱限制和機械限制將冷卻技術(shù)映射到功率密度范圍探索超高密度機架的先進冷卻技術(shù)
: o9 ^, r2 n5 J% X' Y+ t4 u
, z3 I+ Z4 Q" S N! q" e3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:
5 C S& v1 e2 T: o B$ m! S比較空氣冷卻與混合空氣和液體冷卻分析能源效率和總擁有成本(TCO)評估可持續(xù)性策略
2 k7 d; `7 b3 N) T5 K9 L- e
8 [& }$ m2 }3 D- Q. P$ I* S m3 L1 j- g- V# s8 B- G/ G
qof3nhjtbd564038196510.png (146.73 KB, 下載次數(shù): 2)
下載附件
保存到相冊
qof3nhjtbd564038196510.png
6 小時前 上傳
7 H: S/ {( `6 T+ s+ S圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計、部署和運營、監(jiān)控和自動化以及生命周期管理等方面。$ K0 x! R& ` N: H0 I) } ^# S$ g' v4 M
8 }: u, }+ X) E# \
4. 廢熱回收:
2 y. v! H5 q1 |* E5 P$ [) Y' F0 c開發(fā)原型,從廢熱回收單元(WHRU)生成電力探索從液冷機架回收廢熱的可能性與研究中心合作優(yōu)化廢熱利用: f: ]4 c9 a& T
4 k0 _5 H+ G7 G @ P
5. ARPA-E COOLERCHIPS項目:OMNICOOL8 I" `( h6 k$ _# ]9 ^# `- L f
NVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項目目標(biāo)包括:9 E* z2 @ n# I1 X. H! i8 i* G6 s
使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標(biāo):PUE 提高功率密度挑戰(zhàn)(目標(biāo):>160 kW/機架)克服地理位置和天氣限制(目標(biāo):適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)強調(diào)環(huán)境影響和可持續(xù)性(目標(biāo):GWP
* Q( C, I/ Z$ b/ ?* E# c
+ g# q8 z, y- ~7 p, m+ |該項目包含幾項創(chuàng)新:
+ h' b* X& Q7 E1 z# {" k+ s創(chuàng)新的兩相多孔金屬冷板技術(shù)用于緊湊型自由冷卻器的非正交、互鎖線圈陣列機架內(nèi)分布式泵送和流分離系統(tǒng)利用分層架構(gòu)的多尺度流分配系統(tǒng)
' C" K4 H8 r# a1 l* q$ L( p$ [9 k# W9 X
結(jié)論
" M2 D( u6 f8 p% K7 E: D8 c4 H4 N7 {隨著繼續(xù)推動AI和加速計算的邊界,冷卻技術(shù)在實現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長的需求,同時保持效率和可持續(xù)性。
$ J$ P1 E7 `9 H% p% w& |' [4 ^+ E
) m; w9 `/ S, h3 b& I) h通過利用數(shù)字孿生、AI驅(qū)動優(yōu)化和創(chuàng)新冷卻設(shè)計等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對明天AI工廠挑戰(zhàn)的關(guān)鍵。) }: T4 Y- m8 l7 f( m/ l, O
$ D k. j6 D- y- X2 J
計算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動人工智能和高性能計算的下一波創(chuàng)新。
2 h: j# R& Z8 @9 e/ l! _" G$ n$ ^/ Z# e) Q x
& N) P7 q- F' U# X! @. j$ [
參考文獻4 U2 v, Y# v7 e* F5 B7 v- r$ F
[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.' i) E& R: ^8 p7 _
# c) w* J" z* {- ~
- END -/ z% Q& x6 a* X* |
9 K6 z R; {! A( S# p$ P+ q軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。3 B8 N9 c# F% J; j" L% |2 j
點擊左下角"閱讀原文"馬上申請
7 E% t5 S1 @# e# ~! p& B5 [- \ H% H2 l2 p Y L2 R4 B
歡迎轉(zhuǎn)載( t* ~8 Q8 }3 I- T8 x X/ V$ E
: g. S# w2 H4 c2 [轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!+ p+ v, k9 t+ Y& H( \5 \% p& q
1 M5 E5 |% l- H% I
& b0 y) q! L' d) m- H/ e" I* l N3 t% u& C* l
rpj52bnqmgr64038196610.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊
rpj52bnqmgr64038196610.gif
6 小時前 上傳
/ f6 H7 u% z) G9 a$ \( Y4 S
E3 _9 C: f2 t: t ~關(guān)注我們4 R# P9 L) h/ L: M) I4 O% K; r
4 }' _! g8 @2 D" I- y* ~7 \" F' Q
4 ~4 C6 c9 s- Z) M4 m
et0tl4guaub64038196710.png (31.33 KB, 下載次數(shù): 1)
下載附件
保存到相冊
et0tl4guaub64038196710.png
6 小時前 上傳
4 D1 F, ]/ N7 y$ [0 D, R |
1 G Y2 I( R- k
xklfdrehrcu64038196810.png (82.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
xklfdrehrcu64038196810.png
6 小時前 上傳
; Z) ~/ { L- k8 a: D |
$ x/ T/ j/ @& d# J9 D
a1aceo5ifow64038196910.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
a1aceo5ifow64038196910.png
6 小時前 上傳
" F3 e O+ d0 m' r' k8 i
|
3 e, E# E6 g3 e* _" _1 l, h% V" r& p: Q; ]8 {$ ]9 k8 H' S
# g4 D: r# S: J- Z5 T K+ A6 b. F' j+ U' H) }; r
關(guān)于我們:! r$ v, q1 x. D5 |$ |
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。1 A3 M) j9 ?4 ]% [* E6 C& Q
, u, B7 O9 g% @4 Z0 c+ y0 K
http://www.latitudeda.com/! i; k, V$ J- i6 P: t {
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|