電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 21|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 下一代NVIDIA加速計算冷卻技術(shù)

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級會員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎勵 |正序瀏覽 |閱讀模式
引言; C% T! d* f: U4 g) F; D6 ~5 u
在人工智能(AI)時代,計算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對這些前所未有的挑戰(zhàn)[1]。: \8 n& n' n! U% g# G

2 |4 q; a9 a7 v先進冷卻技術(shù)的需求
2 h) J- F% _4 ~* s. c1 J, s隨著AI模型日益復(fù)雜和龐大,對計算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:/ G$ F" U8 f# q( _2 r

; ~- n* U  |! H& Z圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個A100 GPU)到預(yù)計的下一代AI工廠(32,000個GPU,645 ExaFLOPs AI計算能力)。0 n: ]) l* [2 o
2 I2 d8 |8 j" K4 H: N( Z
這些AI工廠正在推動訓(xùn)練和推理能力的極限。然而,強大的計算能力也意味著巨大的熱量產(chǎn)生,因此需要先進的冷卻解決方案來維持最佳性能和效率。
3 t+ }; i5 Z6 Q; A3 i+ [  |: B0 K( x) Z( p
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系9 B: m5 x! F) `. u
為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):
7 L; j% o5 {: f. t' }+ ~+ x
! }4 F" Q2 u" p9 s$ T1. 空氣冷卻
# m3 [8 s6 X; C6 a空氣冷卻仍然是低密度到中密度機架的可行選擇?諝饫鋮s有幾種方法:
0 n7 c" m& Q8 n) n- h/ y# c7 ga) CRAH/CRAC空氣冷卻:
/ K$ I) ~6 S# Q  I: z; Y
  • 適用于低密度機架的房間級冷卻
  • 空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水
  • 使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離
    # S3 e! ]* Y+ P/ k

    6 B; Q# g9 p) p* z* Y) S% F4 {" x3 Z

    # U8 ^9 T( b+ F& I圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。
    " n; P' b' v5 {; @3 k
    - G) `; H; e7 P4 c' a6 _b) 行間冷卻器空氣冷卻:
    9 \" c& R: ]- z+ |' g
  • 適用于中密度機架的通道級冷卻
  • 熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水
  • 可使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離0 l* K& j: M! n8 s9 K" \
    # S2 ], r+ h  E, z1 T4 T
    c) 后門熱交換器(RDHX)空氣冷卻:
    1 o9 t: e* M, H; b% d. ?5 ?' w& T
  • 適用于中密度機架的機架級局部冷卻
  • 空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水
  • 可獨立使用或與CRAH單元配合使用作為輔助冷卻5 _6 _- N; n! i  [6 r+ b! Q
    . O: v8 @8 [- {* G$ s2 u9 D
    2. 混合空氣和液體冷卻' g2 {2 T4 E1 K& q/ }) e
    隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:
    ) Z! T) j/ r8 {. N7 R% }/ ~( |" Sa) 液體到空氣側(cè)車(L2A)液體冷卻:" Y+ j; g) M0 a" W9 Q' M
  • 適用于高密度機架的通道級空氣/液體混合冷卻
  • 適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻
  • 無需額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,冷卻能力有限
    " |3 [7 Y2 b1 |& Q( p# E, l
      b) K1 ?9 h0 y( A8 h' x! p

    1 `7 I! O1 P2 s
    6 g: t9 p- e* b! m圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。
    % `- E/ @8 U2 G( [% d
    - ~( G+ D+ H3 u& m$ a8 \b) 液體到液體CDU(L2L)液體冷卻:7 K* b# x' P. P5 E
  • 適用于高密度機架的通道級空氣/液體混合冷卻
  • 行級冷卻分配單元可在緊湊的CDU單元中移除兆瓦級IT熱量
  • 需要額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,單相液體冷卻的極限, l1 U- c; z: |4 c
    7 E' F" m- f) F# B
    3. 直接芯片液體冷卻5 Z, W: {) F7 L! @- u8 F! w& B! L% [+ I
    對于最高密度的機架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:
    " i/ D7 \. K9 B& B( w1 {2 K
  • 液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻
  • 在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力
  • 功耗約為名義冷卻能力的1%
    $ `' \' y. N6 I/ l3 ]9 O7 n% H

    + [; X& r. l+ U- U7 O; @4 W
      X( n( P8 H  L& ]3 t+ l* T; D- C: F
    # S7 j: P" `- i+ E$ S4 h  q8 X! q圖4:Direct to Chip Liquid-to-Liquid CDU Solutions0 ]% ?: N/ F! Q1 H& l/ O3 |
    ( I6 Z0 U/ S) c
    冷卻解決方案的評估和優(yōu)化
    ) I- A4 M7 ]; |: T  [! S# @為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評估標(biāo)準(zhǔn)和建模技術(shù):' |8 Y0 G. `4 }0 v8 p
    1. L2A CDU評估:; n- j  P# K) w; _( `& ^
  • 設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實驗室環(huán)境
  • 根據(jù)產(chǎn)品要求進行性能評估
  • 使用CFD/FNM(計算流體動力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
    ' I5 K+ g% q8 {, `9 k7 u

    % x$ Y( f2 r4 K# p% {) Q* [2. L2L CDU評估:
    # z% J2 Y' M+ f1 d6 \
  • 設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實驗室設(shè)置
  • 評估L2L CDU的性能
  • 構(gòu)建L2L CDU的物理感知數(shù)字孿生模型
    3 [* I8 Z# z. ?- G2 q, _
    , ^; T. T, r4 t: I5 S+ J
    3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:/ K  C( f5 E+ T3 f; U
    NVIDIA利用其Omniverse平臺創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:
    # ]$ V* T" g# W9 c" t
  • AI加速的數(shù)據(jù)中心設(shè)計和優(yōu)化
  • 熱流體動力學(xué)的實時推理
  • 虛擬測試環(huán)境
  • 預(yù)測性故障維護
  • 能源使用預(yù)測和碳足跡減少
    - ]' Q+ Z, m5 K/ i9 q2 d$ {7 b+ U
    ; E0 H6 l- M& a* w+ C0 N

    4 ?( |5 ~# F/ D, W; a; x' Z
    ) n! A  j9 m( E2 j' c圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。
    + v% ?+ ]* E, r8 ~
    1 M( @9 P3 s! v) G( S8 g研究重點領(lǐng)域6 K! u3 q  \1 P2 {% P7 g' \
    為繼續(xù)推進冷卻技術(shù),NVIDIA正在幾個關(guān)鍵領(lǐng)域進行研究:
    + K0 i  y8 d1 q1. 次級流體、腐蝕和侵蝕研究:) `% m' H  D# i9 P/ q
  • 評估多種冷卻液的熱性能
  • 使用ASTM-D1384和D8040標(biāo)準(zhǔn)進行腐蝕測試
  • 分析冷卻液中的生物生長
  • 進行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性; ^& l9 ], k" _' {0 m% r
    ; Q. h7 a4 k& Y" M4 ^
    2. 機架功率密度與DLC冷卻技術(shù)路線圖:% R. Z6 {  R4 o+ x5 ^1 l0 g. }
  • 分析熱限制和機械限制
  • 將冷卻技術(shù)映射到功率密度范圍
  • 探索超高密度機架的先進冷卻技術(shù)
    : o9 ^, r2 n5 J% X' Y+ t4 u

    , z3 I+ Z4 Q" S  N! q" e3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:
    5 C  S& v1 e2 T: o  B$ m! S
  • 比較空氣冷卻與混合空氣和液體冷卻
  • 分析能源效率和總擁有成本(TCO)
  • 評估可持續(xù)性策略
    2 k7 d; `7 b3 N) T5 K9 L- e

    8 [& }$ m2 }3 D- Q. P$ I* S  m3 L1 j- g- V# s8 B- G/ G

    7 H: S/ {( `6 T+ s+ S圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計、部署和運營、監(jiān)控和自動化以及生命周期管理等方面。$ K0 x! R& `  N: H0 I) }  ^# S$ g' v4 M
    8 }: u, }+ X) E# \
    4. 廢熱回收:
    2 y. v! H5 q1 |* E5 P$ [) Y' F0 c
  • 開發(fā)原型,從廢熱回收單元(WHRU)生成電力
  • 探索從液冷機架回收廢熱的可能性
  • 與研究中心合作優(yōu)化廢熱利用: f: ]4 c9 a& T
    4 k0 _5 H+ G7 G  @  P
    5. ARPA-E COOLERCHIPS項目:OMNICOOL8 I" `( h6 k$ _# ]9 ^# `- L  f
    NVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項目目標(biāo)包括:9 E* z2 @  n# I1 X. H! i8 i* G6 s
  • 使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標(biāo):PUE
  • 提高功率密度挑戰(zhàn)(目標(biāo):>160 kW/機架)
  • 克服地理位置和天氣限制(目標(biāo):適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)
  • 強調(diào)環(huán)境影響和可持續(xù)性(目標(biāo):GWP
    * Q( C, I/ Z$ b/ ?* E# c

    + g# q8 z, y- ~7 p, m+ |該項目包含幾項創(chuàng)新:
    + h' b* X& Q7 E1 z# {" k+ s
  • 創(chuàng)新的兩相多孔金屬冷板技術(shù)
  • 用于緊湊型自由冷卻器的非正交、互鎖線圈陣列
  • 機架內(nèi)分布式泵送和流分離系統(tǒng)
  • 利用分層架構(gòu)的多尺度流分配系統(tǒng)
    ' C" K4 H8 r# a1 l* q
    $ L( p$ [9 k# W9 X
    結(jié)論
    " M2 D( u6 f8 p% K7 E: D8 c4 H4 N7 {隨著繼續(xù)推動AI和加速計算的邊界,冷卻技術(shù)在實現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長的需求,同時保持效率和可持續(xù)性。
    $ J$ P1 E7 `9 H% p% w& |' [4 ^+ E
    ) m; w9 `/ S, h3 b& I) h通過利用數(shù)字孿生、AI驅(qū)動優(yōu)化和創(chuàng)新冷卻設(shè)計等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對明天AI工廠挑戰(zhàn)的關(guān)鍵。) }: T4 Y- m8 l7 f( m/ l, O
    $ D  k. j6 D- y- X2 J
    計算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動人工智能和高性能計算的下一波創(chuàng)新。
    2 h: j# R& Z8 @9 e/ l! _" G$ n$ ^/ Z# e) Q  x
    & N) P7 q- F' U# X! @. j$ [
    參考文獻4 U2 v, Y# v7 e* F5 B7 v- r$ F
    [1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.' i) E& R: ^8 p7 _
    # c) w* J" z* {- ~
    - END -/ z% Q& x6 a* X* |

    9 K6 z  R; {! A( S# p$ P+ q軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。3 B8 N9 c# F% J; j" L% |2 j
    點擊左下角"閱讀原文"馬上申請
    7 E% t5 S1 @# e# ~! p& B5 [- \  H% H2 l2 p  Y  L2 R4 B
    歡迎轉(zhuǎn)載( t* ~8 Q8 }3 I- T8 x  X/ V$ E

    : g. S# w2 H4 c2 [轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!+ p+ v, k9 t+ Y& H( \5 \% p& q
    1 M5 E5 |% l- H% I

    & b0 y) q! L' d) m- H/ e
    " I* l  N3 t% u& C* l
    / f6 H7 u% z) G9 a$ \( Y4 S

      E3 _9 C: f2 t: t  ~關(guān)注我們4 R# P9 L) h/ L: M) I4 O% K; r
    4 }' _! g8 @2 D" I- y* ~7 \" F' Q
    4 ~4 C6 c9 s- Z) M4 m

    4 D1 F, ]/ N7 y$ [0 D, R

    1 G  Y2 I( R- k
    ; Z) ~/ {  L- k8 a: D

    $ x/ T/ j/ @& d# J9 D " F3 e  O+ d0 m' r' k8 i
                         
    3 e, E# E6 g3 e* _" _1 l, h% V" r& p: Q; ]8 {$ ]9 k8 H' S

    # g4 D: r# S: J- Z5 T  K+ A6 b. F' j+ U' H) }; r
    關(guān)于我們:! r$ v, q1 x. D5 |$ |
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。1 A3 M) j9 ?4 ]% [* E6 C& Q
    , u, B7 O9 g% @4 Z0 c+ y0 K
    http://www.latitudeda.com/! i; k, V$ J- i6 P: t  {
    (點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表