電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 18|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 下一代NVIDIA加速計(jì)算冷卻技術(shù)

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級(jí)會(huì)員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言* O; g* T- }! f$ @+ F6 n
在人工智能(AI)時(shí)代,計(jì)算需求正在突破傳統(tǒng)數(shù)據(jù)中心的極限。本文旨在幫助讀者了解NVIDIA開發(fā)的前沿冷卻技術(shù),以應(yīng)對(duì)這些前所未有的挑戰(zhàn)[1]。) y& M% z, n  Z! W3 A
- R  q' V/ j1 y" U2 t. r
先進(jìn)冷卻技術(shù)的需求
8 J) u% D/ N: t; ?! c* b  R& f& S隨著AI模型日益復(fù)雜和龐大,對(duì)計(jì)算能力的需求急劇增加。多GPU集群的AI工廠正成為生產(chǎn)AI工具的未來。讓我們來看看NVIDIA的AI工廠是如何快速發(fā)展的:+ a5 n3 b9 M8 J- Q/ j
0 c% Z6 s; k2 r# a' o5 y
圖1:NVIDIA AI工廠的發(fā)展歷程,從2021年的Selene(4,480個(gè)A100 GPU)到預(yù)計(jì)的下一代AI工廠(32,000個(gè)GPU,645 ExaFLOPs AI計(jì)算能力)。
1 k: |7 v: u" J- q7 J; o
6 g' y9 e2 l& \7 e& A這些AI工廠正在推動(dòng)訓(xùn)練和推理能力的極限。然而,強(qiáng)大的計(jì)算能力也意味著巨大的熱量產(chǎn)生,因此需要先進(jìn)的冷卻解決方案來維持最佳性能和效率。
* @) I4 [3 S; i+ t! E1 v3 N* V, Q2 t8 a
數(shù)據(jù)中心冷卻技術(shù):解決方案譜系2 |) ~4 u3 u  a; Y3 p* K. F9 @
為滿足不同數(shù)據(jù)中心設(shè)置的需求,NVIDIA開發(fā)了一系列冷卻技術(shù),從傳統(tǒng)的空氣冷卻到尖端的液體冷卻系統(tǒng)。讓我們探索這些冷卻技術(shù):) l. l$ p, m6 m& X, ?" S
$ C. P' \* x$ _
1. 空氣冷卻
6 W  w0 G  |: Q; I0 v空氣冷卻仍然是低密度到中密度機(jī)架的可行選擇。空氣冷卻有幾種方法:
6 r& }! h; Z4 r: Wa) CRAH/CRAC空氣冷卻:
- P2 q% ^# S: ^* J* N
  • 適用于低密度機(jī)架的房間級(jí)冷卻
  • 空氣吸收的熱量通過CRAH傳遞到設(shè)施冷卻水
  • 使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離
    : W3 {1 X- Y, F2 Z* }

    3 N: p4 V0 O# j- r. C; @8 H0 A! B0 M' U3 F

    9 R  E1 P0 E+ H0 j圖2:展示使用CRAH/CRAC單元的空氣冷卻設(shè)置,顯示了氣流模式和系統(tǒng)的關(guān)鍵組件。& x. g& @' k3 v( H
    4 x! h& Y" I3 g
    b) 行間冷卻器空氣冷卻:
    # }: e& _1 n/ N# T0 c" B9 e, O1 }0 x
  • 適用于中密度機(jī)架的通道級(jí)冷卻
  • 熱量通過行間冷卻器和CRAH單元傳遞到設(shè)施冷卻水
  • 可使用架空或?qū)嵭牡匕?li>實(shí)施冷通道或熱通道隔離
    ; u- k$ `2 k* A0 A% c) B1 u

    " c' n. |2 V) R- d& W. J- ?c) 后門熱交換器(RDHX)空氣冷卻:6 ]; c& [, e  N2 C' C3 g" z) A; ~
  • 適用于中密度機(jī)架的機(jī)架級(jí)局部冷卻
  • 空氣吸收的熱量通過RDHX傳遞到設(shè)施冷卻水
  • 可獨(dú)立使用或與CRAH單元配合使用作為輔助冷卻
    ; g8 m3 Z6 m' {) @+ H& d; k
    ( y. \9 @* S7 q& \2 ~/ s
    2. 混合空氣和液體冷卻
    7 Z2 E- w' k( q, c* N- |隨著數(shù)據(jù)中心密度增加,結(jié)合空氣和液體冷卻的混合解決方案變得更具吸引力:
    # E4 U+ G5 a7 Za) 液體到空氣側(cè)車(L2A)液體冷卻:$ f, h& I* W& H6 X  v) [3 s: H
  • 適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻
  • 適合傳統(tǒng)空氣冷卻數(shù)據(jù)中心的空氣輔助液體冷卻
  • 無需額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,冷卻能力有限/ B5 H, J4 }4 i+ W0 q

    : Q/ \, `" H! Z) k! I) Q1 X+ V0 ?" F/ ~6 q! M5 q
    9 Y3 S% k' I& Q: P5 U0 V
    圖3:液體到to Air Side Car(L2A)冷卻設(shè)置,演示了如何與現(xiàn)有的空氣冷卻基礎(chǔ)設(shè)施集成。
    ( u" x; F+ i1 g4 f% u, `
    * l6 G% x) d2 N' e5 s9 yb) 液體到液體CDU(L2L)液體冷卻:9 F. ]: u) N5 c4 h
  • 適用于高密度機(jī)架的通道級(jí)空氣/液體混合冷卻
  • 行級(jí)冷卻分配單元可在緊湊的CDU單元中移除兆瓦級(jí)IT熱量
  • 需要額外的液體冷卻基礎(chǔ)設(shè)施
  • 過渡性解決方案,單相液體冷卻的極限
    , l& {  @* x9 B

    ' E  F! \8 p! B  C6 n# N3. 直接芯片液體冷卻
    : e( a% }( l3 R" ?/ [, a對(duì)于最高密度的機(jī)架和最苛刻的冷卻需求,直接芯片液體冷卻提供了最高效的解決方案:% N+ Y" K4 b$ y% n6 j
  • 液體到液體冷卻分配單元在緊湊空間內(nèi)提供約2MW冷卻
  • 在2.75倍小的空間內(nèi)產(chǎn)生6.5倍于CRAH的冷卻能力
  • 功耗約為名義冷卻能力的1%4 ~) w  {2 ]# N8 t

    / u3 D& E2 v8 L* ?' I6 p
    3 ?3 J- d9 \/ i
    ; _, p8 C/ O% k+ n1 X* z% R圖4:Direct to Chip Liquid-to-Liquid CDU Solutions* Q1 m% M. ^: p9 W
    4 E  z7 g' r( x; L1 u
    冷卻解決方案的評(píng)估和優(yōu)化
    % p* m) _: F$ Y6 n: V/ V為確保這些冷卻解決方案的有效性,NVIDIA采用了一系列評(píng)估標(biāo)準(zhǔn)和建模技術(shù):! z: j2 r# Y! `
    1. L2A CDU評(píng)估:
    0 O* H/ J2 H( b& I! P! ]
  • 設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實(shí)驗(yàn)室環(huán)境
  • 根據(jù)產(chǎn)品要求進(jìn)行性能評(píng)估
  • 使用CFD/FNM(計(jì)算流體動(dòng)力學(xué)/流網(wǎng)絡(luò)建模)構(gòu)建數(shù)字孿生
    $ j. h5 x! n: k
    ! U7 P7 f+ f' T+ f" c9 |
    2. L2L CDU評(píng)估:1 @8 c* Y5 ^( M9 N3 D/ {. P6 A) G
  • 設(shè)計(jì)和構(gòu)建模擬液冷服務(wù)器的仿真器
  • 建立受控實(shí)驗(yàn)室設(shè)置
  • 評(píng)估L2L CDU的性能
  • 構(gòu)建L2L CDU的物理感知數(shù)字孿生模型& ]; C/ k! X) W- u- x
    $ `4 x/ K! Q9 U. g; Y2 H9 Z
    3. 液冷數(shù)據(jù)中心的Omniverse數(shù)字孿生:7 _- a# v/ G: n
    NVIDIA利用其Omniverse平臺(tái)創(chuàng)建液冷數(shù)據(jù)中心的全面數(shù)字孿生。這允許:. \7 D) D, B/ w! E
  • AI加速的數(shù)據(jù)中心設(shè)計(jì)和優(yōu)化
  • 熱流體動(dòng)力學(xué)的實(shí)時(shí)推理
  • 虛擬測(cè)試環(huán)境
  • 預(yù)測(cè)性故障維護(hù)
  • 能源使用預(yù)測(cè)和碳足跡減少9 M8 X" ]7 D# u

    ) L$ \1 R# h7 \$ |) s& n7 Q: ]* h# E' w9 i3 k
    2 |3 l! V' k; c' T: I# `
    圖5:AI加速數(shù)據(jù)中心數(shù)字孿生,展示了如何整合各種技術(shù)以實(shí)現(xiàn)全面的數(shù)據(jù)中心建模和優(yōu)化。
    ! A& k9 m: [, Z2 q/ h1 Q  G) a% J8 M: U
    研究重點(diǎn)領(lǐng)域
    1 T$ c: R* K8 _. @6 K$ G% k: X為繼續(xù)推進(jìn)冷卻技術(shù),NVIDIA正在幾個(gè)關(guān)鍵領(lǐng)域進(jìn)行研究:8 I* m# P; k7 e. a; X
    1. 次級(jí)流體、腐蝕和侵蝕研究:
    - i! A4 d8 w  @) i1 Y3 A
  • 評(píng)估多種冷卻液的熱性能
  • 使用ASTM-D1384和D8040標(biāo)準(zhǔn)進(jìn)行腐蝕測(cè)試
  • 分析冷卻液中的生物生長(zhǎng)
  • 進(jìn)行侵蝕研究,確定ASHRAE侵蝕流體速度限制的適用性: d; T! `! w9 W( c/ K( `. _
    ) p' {' [8 L& l
    2. 機(jī)架功率密度與DLC冷卻技術(shù)路線圖:6 m* H& \3 }3 a0 ?; o7 S; y$ J- x
  • 分析熱限制和機(jī)械限制
  • 將冷卻技術(shù)映射到功率密度范圍
  • 探索超高密度機(jī)架的先進(jìn)冷卻技術(shù): N4 h; I8 ~/ C; N5 X6 v
    8 d& }! M! n' n5 a2 K5 t
    3. 數(shù)據(jù)中心效率和總擁有成本(TCO)分析:/ ?1 J, B5 M* V4 O
  • 比較空氣冷卻與混合空氣和液體冷卻
  • 分析能源效率和總擁有成本(TCO)
  • 評(píng)估可持續(xù)性策略
    / x5 b# N! n/ J. R  A
    ; @* G3 q% a9 R7 |- x* m

    ) ^/ R) v. G. v 6 z  E- j; P" r6 q; Y( @; Q
    圖6:NVIDIA全面的數(shù)據(jù)中心可持續(xù)性方法,涵蓋了可持續(xù)設(shè)計(jì)、部署和運(yùn)營(yíng)、監(jiān)控和自動(dòng)化以及生命周期管理等方面。
    : `/ k' v8 Z8 B3 `9 Z# R; y; Q) h7 j+ X- R
    4. 廢熱回收:: Z. Z: L* v: i% z; d
  • 開發(fā)原型,從廢熱回收單元(WHRU)生成電力
  • 探索從液冷機(jī)架回收廢熱的可能性
  • 與研究中心合作優(yōu)化廢熱利用
    " u8 A3 P: _  `% k% {# D. I9 B

    8 e9 M/ ]" H1 P6 Z: `* A4 T7 g# w5. ARPA-E COOLERCHIPS項(xiàng)目:OMNICOOL! S- Z  b# f8 X
    NVIDIA正參與美國(guó)能源部的ARPA-E COOLERCHIPS項(xiàng)目,專注于高效可靠的數(shù)據(jù)中心冷卻。OMNICOOL項(xiàng)目目標(biāo)包括:3 l* }9 T& L+ `0 c8 }
  • 使用混合D2C兩相和單相浸沒冷卻系統(tǒng)提高能源效率(目標(biāo):PUE
  • 提高功率密度挑戰(zhàn)(目標(biāo):>160 kW/機(jī)架)
  • 克服地理位置和天氣限制(目標(biāo):適合ISO 40'集裝箱,環(huán)境溫度≥40 °C)
  • 強(qiáng)調(diào)環(huán)境影響和可持續(xù)性(目標(biāo):GWP / V% }( H" \! ]9 }9 W; E

    4 l6 K2 y) V0 `6 @5 x1 @7 J該項(xiàng)目包含幾項(xiàng)創(chuàng)新:
    3 i3 E2 e4 y2 L9 a$ L- k0 k0 O3 }. z
  • 創(chuàng)新的兩相多孔金屬冷板技術(shù)
  • 用于緊湊型自由冷卻器的非正交、互鎖線圈陣列
  • 機(jī)架內(nèi)分布式泵送和流分離系統(tǒng)
  • 利用分層架構(gòu)的多尺度流分配系統(tǒng)0 ~( m  M; B* D% M  N
    ( y, D, X/ f6 W2 B/ ?
    結(jié)論1 b) N& U" `6 U9 f/ e+ [
    隨著繼續(xù)推動(dòng)AI和加速計(jì)算的邊界,冷卻技術(shù)在實(shí)現(xiàn)下一代高性能數(shù)據(jù)中心中發(fā)揮著關(guān)鍵作用。NVIDIA全面的冷卻解決方案方法,從空氣冷卻到先進(jìn)的液體冷卻系統(tǒng),確保數(shù)據(jù)中心能夠滿足AI工作負(fù)載日益增長(zhǎng)的需求,同時(shí)保持效率和可持續(xù)性。# S6 R$ f- y6 \" m. h
    0 u1 m+ X, p" {8 J% q
    通過利用數(shù)字孿生、AI驅(qū)動(dòng)優(yōu)化和創(chuàng)新冷卻設(shè)計(jì)等前沿技術(shù),NVIDIA正在為數(shù)據(jù)中心冷卻的未來奠定基礎(chǔ)。展望未來,對(duì)可持續(xù)性、能源效率和適應(yīng)性的關(guān)注將成為應(yīng)對(duì)明天AI工廠挑戰(zhàn)的關(guān)鍵。
    0 P7 Z3 X/ _% Z
    ) u- E7 Y. _6 A  [7 l計(jì)算效率和性能的提升之路仍在繼續(xù),冷卻技術(shù)將與之同步發(fā)展。通過保持在這些發(fā)展的前沿,數(shù)據(jù)中心運(yùn)營(yíng)商和AI研究人員可以確保擁有必要的基礎(chǔ)設(shè)施,以推動(dòng)人工智能和高性能計(jì)算的下一波創(chuàng)新。) `; z" x& n' ?3 V. W1 C3 b: A

    8 a; l, o4 l2 t7 x  w
    : h7 t' z; f. J
    參考文獻(xiàn)  v! O9 t: \& O% c  i2 A- u
    [1] Heydari, "Next-Generation Cooling For NVIDIA Accelerated Computing," NVIDIA, Aug. 25, 2024.
    % m. T" l) t: p2 C4 y+ f. a, C& H) f1 ]# \( J6 V' J
    - END -
    : S5 k9 n" m: k/ i; v, W0 {( R0 @$ S- p* v
    軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。2 A* ^. A) C, `  T
    點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)2 Y) N7 k; }1 p9 z6 R" D6 k8 ^
    6 Z, f; @) f8 |, y! h
    歡迎轉(zhuǎn)載( p( t+ m  N7 _

    4 K1 U; }$ n: i. B% ~轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!" V# A7 s/ T  w0 i& _
    3 ?/ h4 u4 f- `  l& D: \0 o' G! G

    ' i4 z! x, {, H7 W0 Y
    2 k8 S$ C# R% t; E; F3 ^% N
    % B/ [9 U( T: \4 j
    : ^7 [; V% E- ^! z: j) r( C
    關(guān)注我們5 [6 O3 R4 T$ [

    , a* Q5 y4 M! ^  [7 ]9 z% c
    + i1 Z2 a  c' z& p) j/ [

    " V, G0 Y1 k# ^) i

    & c3 {( E) h$ F6 S3 f! c # a2 t4 P' ]/ D! }6 X* Y% O

    ' t, L! \5 y# |/ @+ f, X + y) g' s" a  U9 Q6 A' v: e
                          8 o- C# T% v+ o! i4 _9 y2 t

    8 N" M! d' P: B: G

    , ~' U+ P- u) _9 c* ~0 q  \8 n1 o% }
    關(guān)于我們:& [- k; ]/ H0 p# H: Z* N
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    ( d* t- L8 M. |3 W& x/ u% Q1 y+ q, E& A7 t% p
    http://www.latitudeda.com/8 b- F/ v. b- p  n' M8 v  [  R
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長(zhǎng)推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表