電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 20|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 下一代NVIDIA加速計(jì)算冷卻技術(shù)

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級(jí)會(huì)員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言* h4 Q7 g  p* Q4 _3 m3 P: W
在人工智能(AI)時(shí)代,計(jì)算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對(duì)這些前所未有的挑戰(zhàn)[1]。
8 I7 O$ [4 J1 q
4 f- F3 _9 W0 H' I" _先進(jìn)冷卻技術(shù)的需求9 C8 S) ^* Q% z. j; x4 @- V6 ^
隨著AI模型日益復(fù)雜和龐大,對(duì)計(jì)算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:+ L+ |- c' w( D: }, g4 e
7 ^& B& j  c5 _. ^
圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個(gè)A100 GPU)到預(yù)計(jì)的下一代AI工廠(32,000個(gè)GPU,645 ExaFLOPs AI計(jì)算能力)。
9 h. _* T7 Y, p: b: V/ |4 K# b# E9 N& i& Q$ q
這些AI工廠正在推動(dòng)訓(xùn)練和推理能力的極限。然而,強(qiáng)大的計(jì)算能力也意味著巨大的熱量產(chǎn)生,因此需要先進(jìn)的冷卻解決方案來維持最佳性能和效率。% Z; B" i) a! D. Z
* Z5 @" w! f& m+ u
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系, g' Q# ^  L$ n- ?1 N5 H
為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):& u; B7 s  m+ a8 \; I  c& @

1 O0 B9 i$ \" {% \1. 空氣冷卻: k( V' l3 r# }( G# r- _. P
空氣冷卻仍然是低密度到中密度機(jī)架的可行選擇?諝饫鋮s有幾種方法:9 U7 X( \  C8 h3 r0 U9 y3 {
a) CRAH/CRAC空氣冷卻:
  r# a/ O0 X9 {$ d3 x
  • 適用于低密度機(jī)架的房間級(jí)冷卻
  • 空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水
  • 使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離6 p2 L+ F# {$ S
    0 [+ k1 J9 r/ T) |) A6 L0 A2 f$ i

    3 V4 T( [# N6 v, _$ H6 \/ a
    5 H# s8 M4 ^8 R# D圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。: d3 \+ E9 U& @* E' m* s  X

    ) @* F9 _0 w2 }3 Y! lb) 行間冷卻器空氣冷卻:
    5 |8 h' G4 k2 p
  • 適用于中密度機(jī)架的通道級(jí)冷卻
  • 熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水
  • 可使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離
    5 \, u1 y( P. Z4 A; ~8 w. Y5 u

    - N  R% ^' e, M# D* S* M+ N2 `c) 后門熱交換器(RDHX)空氣冷卻:
    8 H( P* b; Y$ F* b3 J" o
  • 適用于中密度機(jī)架的機(jī)架級(jí)局部冷卻
  • 空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水
  • 可獨(dú)立使用或與CRAH單元配合使用作為輔助冷卻
    * U7 I/ g* H: K9 e1 ^
    1 o2 }; C9 }  C5 O
    2. 混合空氣和液體冷卻7 E8 W3 W) N2 B" c) Y/ P: w
    隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:% [! g7 l, V) G
    a) 液體到空氣側(cè)車(L2A)液體冷卻:* m* y) |" ^2 ^0 Y2 u& f
  • 適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻
  • 適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻
  • 無需額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,冷卻能力有限
    9 q/ h0 j9 k. p$ }  X# \  f& w
    , d' B* }# |% e9 [) E

    5 v  I' N6 x3 o3 L0 z: i% S: c- x
    ! X! }8 I6 e0 c. U$ U2 Y! N4 N圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。
    " `4 m7 V2 o/ E' i, Y1 @
    7 l! i! j* O  X0 `; y; A4 wb) 液體到液體CDU(L2L)液體冷卻:5 S/ Z, H" H. F: e7 R6 k+ k+ l3 z
  • 適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻
  • 行級(jí)冷卻分配單元可在緊湊的CDU單元中移除兆瓦級(jí)IT熱量
  • 需要額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,單相液體冷卻的極限% G/ {" h# {0 Z$ B2 {
    ) i* I$ v# P+ Z' Q
    3. 直接芯片液體冷卻
    4 v3 r, x4 o& b對(duì)于最高密度的機(jī)架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:0 @+ F& E3 b4 d# G1 }% u/ g
  • 液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻
  • 在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力
  • 功耗約為名義冷卻能力的1%
    : v# l3 P' f* y4 U) a& G

    6 k2 E4 H4 h% |
    9 R  f4 n1 e5 k+ x/ @3 e
    * B2 N6 G4 P/ L圖4:Direct to Chip Liquid-to-Liquid CDU Solutions1 G# K! {1 ~7 D9 `5 }

    * a' \  D" d, Y8 M; h& k冷卻解決方案的評(píng)估和優(yōu)化5 y; i$ e; [$ P
    為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評(píng)估標(biāo)準(zhǔn)和建模技術(shù):
    & u' D6 d% |, W. \) h1 J, z4 j! I* J1. L2A CDU評(píng)估:
    5 r8 X# N3 c, m2 T% W: Y! |
  • 設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實(shí)驗(yàn)室環(huán)境
  • 根據(jù)產(chǎn)品要求進(jìn)行性能評(píng)估
  • 使用CFD/FNM(計(jì)算流體動(dòng)力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
    : F+ B" f' [" X1 ?2 u) }% |+ M4 u

    % p6 U) J& Z* M0 }2. L2L CDU評(píng)估:
    & W0 e2 V, W5 ?  s" B2 n
  • 設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實(shí)驗(yàn)室設(shè)置
  • 評(píng)估L2L CDU的性能
  • 構(gòu)建L2L CDU的物理感知數(shù)字孿生模型/ q+ ], R/ v* P* b: R8 l1 S' f+ |7 q
    * O0 B* m, @! k& B* _
    3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:3 s+ @8 h1 j3 s7 t, Z( ^# b
    NVIDIA利用其Omniverse平臺(tái)創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:
    + v/ K$ F3 x6 I9 }
  • AI加速的數(shù)據(jù)中心設(shè)計(jì)和優(yōu)化
  • 熱流體動(dòng)力學(xué)的實(shí)時(shí)推理
  • 虛擬測試環(huán)境
  • 預(yù)測性故障維護(hù)
  • 能源使用預(yù)測和碳足跡減少6 q: g, c5 g8 W" h

    8 m; Z$ W7 K6 L* C: X+ o6 |, K& C5 P$ F( S: A
    " k/ A- c# v3 @* [9 ]
    圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實(shí)現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。" {- N. Z( S) \

    * |6 Z* g2 s2 C7 I2 F$ l( d  S研究重點(diǎn)領(lǐng)域
    9 ~9 |! A* j6 E+ a7 J, T為繼續(xù)推進(jìn)冷卻技術(shù),NVIDIA正在幾個(gè)關(guān)鍵領(lǐng)域進(jìn)行研究:) L% [& M: {9 I+ d8 Y1 Q0 T
    1. 次級(jí)流體、腐蝕和侵蝕研究:8 b# g4 P5 i0 P/ p& d! A) E+ C4 |2 a
  • 評(píng)估多種冷卻液的熱性能
  • 使用ASTM-D1384和D8040標(biāo)準(zhǔn)進(jìn)行腐蝕測試
  • 分析冷卻液中的生物生長
  • 進(jìn)行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性
    8 J3 h# G! f( ]5 T- h
    : U" G9 D+ L9 G8 E: b
    2. 機(jī)架功率密度與DLC冷卻技術(shù)路線圖:' \0 M! @6 j% B
  • 分析熱限制和機(jī)械限制
  • 將冷卻技術(shù)映射到功率密度范圍
  • 探索超高密度機(jī)架的先進(jìn)冷卻技術(shù)9 X3 |, n- O- x( J! K( @0 I

    3 e( F, Z# y& J0 q3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:
    6 p8 ^" k6 V+ X3 Z  p
  • 比較空氣冷卻與混合空氣和液體冷卻
  • 分析能源效率和總擁有成本(TCO)
  • 評(píng)估可持續(xù)性策略
      }0 w6 Y8 m* k( b. j" Y, g

    4 ~  \* x; j+ m6 e; X
    9 Y7 T  t, y& r' m6 r
      F( C2 F8 j2 d! w8 X圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計(jì)、部署和運(yùn)營、監(jiān)控和自動(dòng)化以及生命周期管理等方面。
    8 U1 y7 ^7 m, `9 k* v
    ( [( g- g/ A7 P; r4 F& v4. 廢熱回收:
    " A: m$ s; Z% L
  • 開發(fā)原型,從廢熱回收單元(WHRU)生成電力
  • 探索從液冷機(jī)架回收廢熱的可能性
  • 與研究中心合作優(yōu)化廢熱利用# F; {9 |9 `/ i: d
    5 W8 P/ W. t' z7 _4 D4 j$ W* ?1 M
    5. ARPA-E COOLERCHIPS項(xiàng)目:OMNICOOL
    " u: ^( X) G' ~- e# X9 MNVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項(xiàng)目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項(xiàng)目目標(biāo)包括:
    ) u3 _; J7 D! m8 w
  • 使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標(biāo):PUE
  • 提高功率密度挑戰(zhàn)(目標(biāo):>160 kW/機(jī)架)
  • 克服地理位置和天氣限制(目標(biāo):適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)
  • 強(qiáng)調(diào)環(huán)境影響和可持續(xù)性(目標(biāo):GWP
    $ i% W( Z" N/ \9 x5 p, r! K
    ; ?! \3 U1 w- {% B
    該項(xiàng)目包含幾項(xiàng)創(chuàng)新:
      m7 B! C, o* O$ G! p
  • 創(chuàng)新的兩相多孔金屬冷板技術(shù)
  • 用于緊湊型自由冷卻器的非正交、互鎖線圈陣列
  • 機(jī)架內(nèi)分布式泵送和流分離系統(tǒng)
  • 利用分層架構(gòu)的多尺度流分配系統(tǒng)5 F* l& U! E6 j- R$ m; V2 t3 i% N0 \
    2 g0 v' R# Z0 G& ?, n
    結(jié)論
    * m3 @0 J' K* }/ h隨著繼續(xù)推動(dòng)AI和加速計(jì)算的邊界,冷卻技術(shù)在實(shí)現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進(jìn)的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長的需求,同時(shí)保持效率和可持續(xù)性。
    ( W% r$ u! i* y9 Y* a( D4 {
    ) ]* ~/ O) |, G$ r* H) P3 ~0 ~通過利用數(shù)字孿生、AI驅(qū)動(dòng)優(yōu)化和創(chuàng)新冷卻設(shè)計(jì)等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對(duì)可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對(duì)明天AI工廠挑戰(zhàn)的關(guān)鍵。3 B, K' V( `6 n) ~. l5 y8 D

    3 k7 e0 R% |1 t/ Z' b/ K' Z: F計(jì)算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運(yùn)營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動(dòng)人工智能和高性能計(jì)算的下一波創(chuàng)新。7 M' V! [  R+ E$ u; w  N
    8 d" q4 t6 K: ?: }* o6 l
    % s% @3 T. R7 J# O
    參考文獻(xiàn)
    2 U2 l4 A/ D/ d( q[1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.# J( y7 R1 v; f

    ' E0 D. g" J; d4 j6 o& @- END -) {' Z( h/ O; G8 i; E+ Y5 j! K
    9 k" h7 y/ A4 H( L
    軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    $ ~; d  ~, b% U1 `  x6 o% B6 D8 j點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
    0 t" s5 v1 E  x  p9 H! h3 h" |1 F& l& j/ k  j
    歡迎轉(zhuǎn)載
    ! ~, f; g1 s5 e9 O4 g* b  c; B; g% P' U: \
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
    9 T- [" W3 a: P! s
    7 s' s9 e: k: U3 o( K7 T  V
    0 c. f2 v% ?; r) a( y% R

      M, _$ {: J) o  A) a
    6 X  U% v! r. [1 ]$ y( [9 W! R9 P* a) |8 F8 p1 C" q
    關(guān)注我們+ D4 @$ m$ ]& m! C4 P7 r1 G' i9 I5 B
    ( I% o4 |" {, F1 {* p  a; X3 c
    % ?3 q- w; L3 e& e/ w( p
    ! `# d; w. q5 c

    " J& U0 J7 }4 z4 D/ f/ P
    - |# A# c* `' _) p- V

    7 \. d  p. Q, ]$ q # O' T8 v& R3 z$ w; j) o
                         
    ( m- g' m" X" ?5 D0 F
    ( u; `* G% t: f; O9 K
    , R! R+ x, O* N; X

    ; {4 \0 V) C3 m4 I關(guān)于我們:3 a( d* L! p, w5 i, p& @
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。( j, W  T( \# P
    5 Q) p6 T. ^0 h8 h" x
    http://www.latitudeda.com/$ _/ r/ r' f! n$ X
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表