電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 22|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 下一代NVIDIA加速計算冷卻技術(shù)

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級會員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言, i6 g4 m8 w  T
在人工智能(AI)時代,計算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對這些前所未有的挑戰(zhàn)[1]。" O, @1 S3 z3 n

$ L/ O* l5 O6 e- E# o先進冷卻技術(shù)的需求
2 L+ N  W, ]! o2 P+ z隨著AI模型日益復(fù)雜和龐大,對計算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:0 y" P9 E0 v5 s& w/ o' o$ ?4 t
" y9 I9 m& n+ g3 n
圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個A100 GPU)到預(yù)計的下一代AI工廠(32,000個GPU,645 ExaFLOPs AI計算能力)。% t' U/ ^; I3 c) M

( v; U3 r3 M& m! i這些AI工廠正在推動訓(xùn)練和推理能力的極限。然而,強大的計算能力也意味著巨大的熱量產(chǎn)生,因此需要先進的冷卻解決方案來維持最佳性能和效率。
/ B/ P$ m8 y9 ^5 R1 n& Z/ x4 X0 H3 m  C/ m, P- ]
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系
% n7 @4 l' k% n* h! k, E, S) d為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):% J5 d% g5 `2 J) x  q8 J0 S2 t% p, i
% }: l1 S) C) A" w
1. 空氣冷卻% e6 c, \  v5 i4 U
空氣冷卻仍然是低密度到中密度機架的可行選擇。空氣冷卻有幾種方法:6 @+ {2 D& ~: c+ g
a) CRAH/CRAC空氣冷卻:
2 M) b- H) n9 G0 n- C: M& `
  • 適用于低密度機架的房間級冷卻
  • 空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水
  • 使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離" h" z* V# V* r7 L% F
    # a% o8 K1 Q7 l: y# @. _; o3 o% O7 D
    + z7 @- Q+ r6 g2 M6 N
    / T6 ]* e+ v( d* G( k' r( O# _
    圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。% m9 E, q- W- n% s
    3 o# X: q# I! b# g
    b) 行間冷卻器空氣冷卻:$ @! n$ v% ?  F8 h3 k
  • 適用于中密度機架的通道級冷卻
  • 熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水
  • 可使用架空或?qū)嵭牡匕?li>實施冷通道或熱通道隔離! S! v" ]) X4 O' y4 v" g& p6 {  l0 B

      E/ }: \8 g- L0 q. v# w$ @. Bc) 后門熱交換器(RDHX)空氣冷卻:, Y4 G* \0 g% }! x8 n; O
  • 適用于中密度機架的機架級局部冷卻
  • 空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水
  • 可獨立使用或與CRAH單元配合使用作為輔助冷卻
    0 ~/ |7 U0 X: m8 o9 ^/ v4 J

    , J0 j9 e+ L/ a8 m2. 混合空氣和液體冷卻
    9 r2 U3 F' Y: U* d! @隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:9 `( T3 W& ]2 R" Y' J# E( Z! `
    a) 液體到空氣側(cè)車(L2A)液體冷卻:3 `6 Y- D  [  d2 o1 ]
  • 適用于高密度機架的通道級空氣/液體混合冷卻
  • 適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻
  • 無需額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,冷卻能力有限5 U$ ?& W. r5 m  D# s
    # q& g: J" o+ a$ a9 q

    . N( D! I9 _3 n! i% p3 e , c8 q6 V# {/ N
    圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。" ]3 G: U. E$ s: I7 O( ^

    7 Y6 q- B$ K6 K$ G! W: n/ G% eb) 液體到液體CDU(L2L)液體冷卻:
    " d, v4 H8 K0 |; {
  • 適用于高密度機架的通道級空氣/液體混合冷卻
  • 行級冷卻分配單元可在緊湊的CDU單元中移除兆瓦級IT熱量
  • 需要額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,單相液體冷卻的極限
    $ d4 _& d- D3 b) V( {0 S5 ~

    ( \( ]+ F  M3 E' g3. 直接芯片液體冷卻
    ( O1 e: m0 ~4 J# O對于最高密度的機架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:5 Z. q9 r% P8 W' }6 G1 g: ?" h
  • 液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻
  • 在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力
  • 功耗約為名義冷卻能力的1%
    * d: L6 s4 d" f
    # m/ W1 |1 l+ a
    0 h+ l1 ]( W2 K& F( s5 u& ^

    . K4 Y% }( b5 X- h8 I8 x圖4:Direct to Chip Liquid-to-Liquid CDU Solutions
    ( ^( I' K4 a/ I" C* r4 U* d/ |: H2 p7 V! \( o
    冷卻解決方案的評估和優(yōu)化
      c- Q( W/ s8 K5 A: s7 ^' B為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評估標準和建模技術(shù):6 [- u9 r: q! u" X/ X, h
    1. L2A CDU評估:
    ' t- T1 U; a2 t1 R
  • 設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實驗室環(huán)境
  • 根據(jù)產(chǎn)品要求進行性能評估
  • 使用CFD/FNM(計算流體動力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
    0 `$ \/ A" r& w9 b+ Q% X
    - Z3 d' k- I& k' A) g3 i& @/ D
    2. L2L CDU評估:! i% U' U7 L% U, D. v
  • 設(shè)計和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實驗室設(shè)置
  • 評估L2L CDU的性能
  • 構(gòu)建L2L CDU的物理感知數(shù)字孿生模型6 Z! \, Y0 }2 x! J8 Q& Q( N0 C
    $ W) ^3 Y+ w- v0 r1 Q4 s
    3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:
    * d# x  I0 L, }* H0 ~5 PNVIDIA利用其Omniverse平臺創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:; [2 N/ V1 }& q4 G3 z& i' S
  • AI加速的數(shù)據(jù)中心設(shè)計和優(yōu)化
  • 熱流體動力學(xué)的實時推理
  • 虛擬測試環(huán)境
  • 預(yù)測性故障維護
  • 能源使用預(yù)測和碳足跡減少
    / Q! l/ `4 @8 ~/ i
    ; M& ^% ]0 _% j9 m. {

      w: P9 [3 b+ _' A
    ! ~' f% ^; e* M圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。
    2 x2 L# F7 B; @4 W8 }0 R$ w$ Y) U
    研究重點領(lǐng)域- v+ C  E6 V/ S1 z3 M0 p0 @! R
    為繼續(xù)推進冷卻技術(shù),NVIDIA正在幾個關(guān)鍵領(lǐng)域進行研究:
    + q' ?; \7 l3 g1 ~1. 次級流體、腐蝕和侵蝕研究:. B  h0 I( \% G1 Q2 g, ]; {
  • 評估多種冷卻液的熱性能
  • 使用ASTM-D1384和D8040標準進行腐蝕測試
  • 分析冷卻液中的生物生長
  • 進行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性2 }1 v+ \0 v7 b9 [* m
    / d# r9 M6 O; H" D- _  j( u
    2. 機架功率密度與DLC冷卻技術(shù)路線圖:
    7 z. @5 Q8 ~- Q" E7 `
  • 分析熱限制和機械限制
  • 將冷卻技術(shù)映射到功率密度范圍
  • 探索超高密度機架的先進冷卻技術(shù)7 N4 w% c9 _; u3 U$ u3 E" G1 u9 K
    % Z/ Z, `* x. s- B1 G/ R; U, S
    3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:4 u/ J0 U# I* K
  • 比較空氣冷卻與混合空氣和液體冷卻
  • 分析能源效率和總擁有成本(TCO)
  • 評估可持續(xù)性策略' |2 O2 F% k- ^

    * T6 v' ?$ K' n
    " f4 r3 O3 R# B) K$ ?
    0 k! h7 d5 k) U# p圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計、部署和運營、監(jiān)控和自動化以及生命周期管理等方面。/ M, r+ Y3 H$ q2 A" E" {3 \' A( B
    / _0 T! n( K$ j3 H
    4. 廢熱回收:  r$ x; e! i2 u9 x7 k1 [. x) C) _
  • 開發(fā)原型,從廢熱回收單元(WHRU)生成電力
  • 探索從液冷機架回收廢熱的可能性
  • 與研究中心合作優(yōu)化廢熱利用
    . C  p. {# W! `  |( H6 e
    + Q+ e" }! P2 W
    5. ARPA-E COOLERCHIPS項目:OMNICOOL
    1 w& h3 O6 w3 D! v7 qNVIDIA正參與美國能源部的ARPA-E COOLERCHIPS項目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項目目標包括:, I- M4 D) e1 K: z
  • 使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標:PUE
  • 提高功率密度挑戰(zhàn)(目標:>160 kW/機架)
  • 克服地理位置和天氣限制(目標:適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)
  • 強調(diào)環(huán)境影響和可持續(xù)性(目標:GWP 5 w: w+ e! P4 ^7 w2 E/ D
    ; @  b6 e1 @# x2 [% N
    該項目包含幾項創(chuàng)新:
    # r  ?" ?8 M1 S, b1 U) Z, o
  • 創(chuàng)新的兩相多孔金屬冷板技術(shù)
  • 用于緊湊型自由冷卻器的非正交、互鎖線圈陣列
  • 機架內(nèi)分布式泵送和流分離系統(tǒng)
  • 利用分層架構(gòu)的多尺度流分配系統(tǒng)0 _8 s1 q' \1 f- K6 r

    3 C, p$ G2 j# D9 n) J% J結(jié)論
    / u2 S, G  {: A; B' _* l8 Z* B+ h隨著繼續(xù)推動AI和加速計算的邊界,冷卻技術(shù)在實現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負載日益增長的需求,同時保持效率和可持續(xù)性。
    9 t/ I- b- S9 N
    8 l% S0 B; D* g: H. G- B; ?通過利用數(shù)字孿生、AI驅(qū)動優(yōu)化和創(chuàng)新冷卻設(shè)計等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對明天AI工廠挑戰(zhàn)的關(guān)鍵。
    $ k: `8 k4 g9 K) _+ A6 K0 ^# E- }5 o
    計算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運營商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動人工智能和高性能計算的下一波創(chuàng)新。2 D* U7 ?8 p; o  v" U# F8 w3 g

    # e. ?5 V+ ]$ }# V, j

    0 i& a5 @& z/ Y參考文獻1 N7 \6 \5 \- X1 ?
    [1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.
    0 ]& `8 L' W) S7 s% z
    ( y3 b' `# o  Z. o; U- END -
    ; [( U, l+ p$ P6 D" E6 ?! o+ t, `- g8 q1 X
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    6 J. V4 j* d% Q點擊左下角"閱讀原文"馬上申請
    ! P7 c7 `6 B  K6 Q$ f% H; o" Y, r
    ) j: w4 D1 T( Z( A: v) \歡迎轉(zhuǎn)載
    ( [* v8 O1 S8 _3 Y3 x1 `* f( p( x& z  ~3 B+ N) L: T( C5 V9 _. V
    轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    5 ^/ ^% {# ]: _7 }$ U
    . f( f' U4 L: k
    % O* @* K: ~, u7 @

    8 z2 x3 D1 E7 A- @+ I! ^/ J+ J5 T
    $ m& f: I( N# M* H& f+ w
    - T' F! {6 J- ]關(guān)注我們
    0 P1 h7 V7 N( s& s+ [+ d& ^# ]- @- R- c1 ^9 i; }
    ( T* W  k! B% V% b
    5 ]7 _9 f- u9 c8 e

    6 g9 S0 W6 ~, I/ s+ V * Y" W1 _2 Y- u; r; R

    / _: L+ }; H: F% O0 j- q4 o
    & i& C4 y: r* h: e( M: r: h
                          - C  Z( u! i' p1 t
    0 g7 |) d# ?/ O

    / D7 P3 q' x* u" j8 Y; }5 c
    3 X  u1 @8 p# Q- N0 }3 q關(guān)于我們:4 {; E, y- j* J1 [
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    / ?1 @) I8 S' K' O3 F; M0 C* m# O* Z
    http://www.latitudeda.com/5 R, R' J6 m1 w6 P* i1 Y# I3 @8 l
    (點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表