電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 39|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | NVIDIA Blackwell平臺推進(jìn)生成式AI和加速計算

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級會員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-23 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
6 T" p! h; n6 W1 O; E) FNVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。
* b% ^. P5 y# E( B  N, s6 X" l% q7 s1 m
NVIDIA Blackwell平臺簡介
: l% ~: u  Y+ z& n" v' [  {: BBlackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:0 F" z7 f( ^! `
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
    6 c5 d6 L; f* _

    & |, W5 p& ], H8 \
    : q7 l& h* H3 u圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
    7 `) z0 D. f2 s. e2 D# b! w9 X( e
    這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。( {$ I( U! i: h" Y

      c3 O% h' f- V. e
    " d  o* D1 r" h3 a# b8 {
    Blackwell GPU:AI計算的新時代2 t: s) [- O% O
    Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。
    # c. X/ j, Q( P8 R , k( X5 j, Y' }9 c9 W* w
    圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。& \! _7 O( D& L6 k( Q

    ) D2 O3 i! ]% cBlackwell GPU的主要特點包括:
    " R1 a/ N1 ^' E4 Y1 \
  • 使用臺積電4NP工藝制造的2080億晶體管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s內(nèi)存帶寬,采用8位HBM3e
  • 1.8 TB/s雙向NVLink帶寬
  • 與Grace CPU的高速NVLink-C2C連接
    : a; m" x' `9 z) Y

    $ @$ a* d2 z3 D. UBlackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。
    # A" q- R  ~9 a; ?$ Y
    # s1 M* a% L. [2 L3 J! g& G' p圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。' T$ B  T( Y6 w" ^$ g, i9 S

    & d* [1 h* f; o4 k% PBlackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。7 h5 `) e, u: L6 h% a( n9 K  |
    ! f2 z- N8 z7 ?3 E/ ]; W! W# N
    NVIDIA GB200 Grace Blackwell超級芯片
    / V% {" j: s* T1 Y! O8 Y1 o' [GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。
    1 u3 x6 x, _: i/ N8 J* E) s' F
    5 e: B0 w# [. A6 c1 c圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。: h# J0 z8 L7 }8 Q7 g: |( ]

    # B3 E; Z. l+ c9 A6 U4 ~' x4 j5 VGB200 Grace Blackwell超級芯片的主要特點包括:1 g6 V+ |: c: D+ {
  • 1個Grace CPU和2個Blackwell GPU
  • NVLink-C2C互連
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高帶寬和低延遲通信
  • 針對AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化' o( Q4 p9 h8 z1 g( ?* X
    4 p4 j1 @1 \8 o( Y4 \
    NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI
    0 c: M* G- }! [4 r% {! h' ], }2 tBlackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):! E6 a9 T" S" f  H9 c8 }
  • 精度損失
  • 非均勻?qū)用舾行?li>窄動態(tài)范圍
  • 量化噪聲8 ^( h/ V# {8 V3 @

    + T' `, t) j1 A3 R0 Y# i+ s, Y$ e( V+ T

    8 L! T. N' ~+ Z圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。- Q7 E3 K* ~1 R/ A9 w
    * w- f9 y' S4 A
    Quasar量化系統(tǒng)包括幾個關(guān)鍵組件:
  • Transformer引擎:硬件和軟件優(yōu)化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等/ n) b- G9 }* b
    [/ol]
    7 C. y# K$ Z  r& WBlackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。# P9 W" [  f3 Z5 w
    $ M- c& D/ ?5 F% m7 W
    " Y$ X! p. T* n. ~* t+ x
    圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
    * b$ ^1 M7 O* [/ X2 d; C
    0 c  P; P% g/ ~# x# Y" m$ O這些新格式提供了幾個優(yōu)勢:
    ' R9 W/ P5 @5 k
  • 更寬的FP范圍
  • 放大的帶寬
  • 更低的功耗
  • 更精細(xì)的量化粒度
    ' [' n& Y5 b: H0 T

    % i" I. C+ ~  q' u  @Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:+ t# y2 ^+ D. _2 I4 B8 P8 {# b, F  S
    " |9 Y" C3 @! |7 b) c8 D
    . I2 ~7 Q  \1 {, }+ Q3 p
    圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。% y! O! \3 e$ o1 X1 }" v
    - I, m- q- t9 d6 w
    這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。, p$ y5 d+ b1 M" h9 c$ c

    7 M; e6 M3 s- B# z* C2 Y* U# `. h1 J8 GAI網(wǎng)絡(luò):端到端性能和功率擴展# K, l& E9 T( b5 o
    隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。
    ' w! p; X4 i+ ?' m, P% p
    , V+ g' R; L( e6 \8 ~圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
    1 p9 i7 `# A: v  k& T6 s
    : Y. s. Q( w; s為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
    + E! D* }+ J1 x  R   N2 V6 f" y) `$ s, D- {
    圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。) l8 H4 Z$ p# i2 j+ R

    ) h0 B7 e' L; }Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達(dá)到100GB/s。
      I9 o) M) H6 M% P  e: h( C9 }' O9 M+ l- z2 n
    網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:3 {/ b8 A+ V1 V& w8 Z' i) d! B) d

    6 y" }! I  _+ Z5 k- {3 j' b圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。
    8 T$ I) \  N$ `, h2 }% }# a+ {/ s
    $ i2 A8 U* ~7 b7 tNVLink交換芯片的主要特點包括:1 n  T: d3 F- i8 o
  • 臺積電4NP工藝中>800 mm2的芯片面積
  • 在GB200 NVL72上將NVLink擴展到72個GPU
  • 通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬
  • SHARP(可擴展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能
    % U# R# d- s6 t+ F* M4 `; K  B% \

    ! _0 G& V: \' }0 r. eNVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。  n6 M, S' r) O% S# [& m

    % V, J( E% U! x7 {  }6 Q0 b: nGB200 NVL72和NVL36:新的計算單元
    6 B  U$ {" j% u- m2 M6 D) SBlackwell平臺引入了兩種強大的配置:GB200 NVL72和GB200 NVL36,在單個機架中提供前所未有的計算能力。3 O/ q/ w" H% |

    1 v6 L( K1 X& `$ ]3 h圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。4 _" F8 d; H' I7 }5 O

    0 S9 ?# ]  s! `8 k# C# ^9 @, E4 i+ eGB200 NVL72配置提供:
    5 a0 d5 S; I( S& Y
  • 36個Grace CPU
  • 72個Blackwell GPU
  • 9個NVL72 NVLink交換托盤
  • 720 PFLOPs的訓(xùn)練性能
  • 1,440 PFLOPs的推理性能
  • 支持27萬億參數(shù)的NVL模型大小
  • 130 TB/s的多節(jié)點帶寬
  • 260 TB/s的多節(jié)點全規(guī)約
    # p: b; Q6 h' B  p1 u# z

    8 `3 t4 B8 F& F這種配置能夠高效擴展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。4 \8 }! r4 _# l% G

    : L2 q# D6 `0 U: f/ [圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。
    ! m3 i% A4 R4 v; T1 _9 f  [5 Z3 ^# M% ~1 v
    GB200 NVL72配置展示了令人印象深刻的性能提升:% T- ~% l( j2 w) i: C
  • 與前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 總擁有成本(TCO)降低25倍
    2 }+ q: G  t6 [: O

    4 D' l; [5 ]1 A, Z6 S結(jié)論:AI和加速計算的未來: |, ^5 w* _* `9 U  W
    NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進(jìn)步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
    ' F  H9 E" w) O  L+ u3 q% Q" v
    ! R4 [+ X+ u+ q, t6 e: e3 s. Y. X圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。, r( _9 ]; s1 K! N1 S9 B( N

    * C2 E( d6 N$ `6 \- wBlackwell平臺的主要成就包括:. a$ m' b" D' ?2 e9 Q2 H. d3 ]- j
  • 全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機
  • NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性
  • 實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級
  • AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善
    2 {( y1 Y" A( f1 b/ O" {: f, L
    0 m) a) c4 P2 F' {  Z, l+ D! @2 C
    通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。8 ^9 F/ R% I$ `9 ?
    ) W4 l- F  n) s. _3 B8 ^. k
    參考文獻(xiàn)
    " m; Z6 m1 V6 }! C6 Q) a7 n[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.: v+ t, ^2 R" r' _/ k% |6 c

    3 b- E/ a+ u. j% G/ J! ?9 W- END -- P7 b8 z/ i8 D, Z5 i% k/ a4 e' O! c

    . ^/ b' @3 u3 O軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。! w+ I: |7 D9 L, E% E/ W
    點擊左下角"閱讀原文"馬上申請
    ) x- P0 F. @" ]  }5 h" Q. B" w5 Z% j2 S- ]$ E2 p# Z3 @
    歡迎轉(zhuǎn)載- W# ]) t4 r" l
    % g& t% k* [! W8 I  ?
    轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!7 }4 s7 ~  D) K1 T. P% m4 ]" n

    / c' z% F8 [. c0 `) T$ |# x/ ~3 F+ P/ T/ c; u' a8 g3 K

    # W% }' y( j- K# \- z% v0 `: @ - G1 ?- g0 {2 Q0 O1 Y8 A8 [
    9 r3 B3 Z& t4 _% G% l5 W
    關(guān)注我們
    6 x  ^* `# E& m# a5 Y  u/ r* Z% l4 \7 ]! r' i
    5 w' q$ g1 W' W2 d9 q: N2 g
    9 U# H5 Q3 `) v: d

    6 F! _9 X0 }9 v4 {8 G- K
    " t8 w8 N9 F/ k8 A# E  ^3 G

    4 }3 V! G: f/ ~  ~
      c7 J3 O3 [0 H, v" M) ?( g  `& f( a
                         
    ! w& b* \+ F* R0 h
    3 ]7 C4 C) x+ G
    1 l% }) K3 A  B6 |3 w# j) `

    ( m3 s5 S9 Q" J+ [關(guān)于我們:
    : E8 f" a, l5 n& S  h+ c( p深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。" o0 g. B1 X& |" }
    $ Q/ f3 ]+ @, c! r2 w7 ?
    http://www.latitudeda.com/
    ! Q- x2 K5 c. A6 g(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表