電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 40|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | NVIDIA Blackwell平臺推進生成式AI和加速計算

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級會員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-23 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
4 {$ ^, r: \* t' \+ X! SNVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。
* L/ x9 X  @7 E
3 B3 y$ y; E% M4 x) }: INVIDIA Blackwell平臺簡介
% ?1 R5 Y# [  ]( y" A, ~  R! D. nBlackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:
) y+ r5 I: ^4 ?4 v/ P7 [
  • Blackwell GPU
  • Grace CPU
  • NVSwitch芯片
  • BlueField-3
  • ConnectX-7和ConnectX-8
  • Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
    : V1 D' c7 M: ]$ V2 f) p

    8 a6 _" K# y2 y  n/ q' {' {  [
    9 q  n" |  c% l4 S- e圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
    % M- N: H4 a9 F# S1 z  Q
    : h- O3 R4 |4 I這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
    $ t2 J8 r+ W6 H
    3 t+ i4 q/ l( `9 \1 T) q3 _9 S

    ; A# Y7 z4 ^1 gBlackwell GPU:AI計算的新時代6 z! N4 q/ X0 _
    Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。7 t& T. a1 r' o$ T1 `$ n) q

    * K' g! m( c3 `& H圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。5 o8 l- @/ G! R3 ^$ v& C& c

    / U/ {' |# y7 i7 f3 h( j0 BBlackwell GPU的主要特點包括:  R) E; X" s+ k
  • 使用臺積電4NP工藝制造的2080億晶體管
  • 20 PetaFLOPS FP4 AI性能
  • 8 TB/s內(nèi)存帶寬,采用8位HBM3e
  • 1.8 TB/s雙向NVLink帶寬
  • 與Grace CPU的高速NVLink-C2C連接
    " O, @1 D- d& N' Y" X
    : v3 K3 E5 K/ V9 r- t4 ]* ^" K3 u% ]
    Blackwell GPU相比其前代產(chǎn)品有顯著進步,提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。* M" q# c1 ]$ \! y& _& @2 U
    + z4 ?: w1 ]. n. J+ |: X
    圖3:從Volta到Blackwell的NVIDIA GPU演進,展示晶體管數(shù)量和芯片面積的增加。
    . i; S5 S3 }* Y+ h& _- b
    - p, v1 }' I" }; z  JBlackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。6 A& r4 n6 k3 {! A0 s( M" Z
    $ Z( O+ i3 h# G: v$ d  K2 @
    NVIDIA GB200 Grace Blackwell超級芯片
    : b; ~& X' M2 B4 _0 ~GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。
    * s3 {& `+ E# Y
    * ]5 L3 ?" D  g  ^圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。4 D0 y* u8 w9 s* `, J+ O

    ! W& N. P. ~' Y5 G9 r) [GB200 Grace Blackwell超級芯片的主要特點包括:8 \3 q- A7 K% a, j" I7 H
  • 1個Grace CPU和2個Blackwell GPU
  • NVLink-C2C互連
  • 40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能
  • 高帶寬和低延遲通信
  • 針對AI工作負(fù)載中的鍵值(KV)緩存進行了優(yōu)化
    2 e; R- F" J) R9 c0 \8 c7 I
    ( g- S* b; O0 E8 z9 \7 u
    NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI7 e6 L0 a. A, f
    Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):
    2 b0 h7 \5 \! g
  • 精度損失
  • 非均勻?qū)用舾行?li>窄動態(tài)范圍
  • 量化噪聲
    1 p( U, R! V- G* f- E

    ' v" ^8 J6 y) C* {; a: [0 t  m$ b) s+ t$ X$ I
    ' a% A4 S' V3 {. O
    圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。8 S; j% X/ p! H- M3 G% z2 a
    0 w: g% ^: p& J0 m( T$ {
    Quasar量化系統(tǒng)包括幾個關(guān)鍵組件:
  • Transformer引擎:硬件和軟件優(yōu)化
  • :TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等
  • 低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等
    8 C' ?/ U+ K8 X& u[/ol]" W4 R8 L# I9 V* z
    Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。, R' O# ?2 W3 o8 l( @5 E4 _
    & d- `# |5 O$ r+ j# \9 V( B7 R

    1 O, u1 Y) K: a% L圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
    3 a, k) a2 d2 k  {6 P) d: Y) @" X, M$ Q# o. T$ Z1 w
    這些新格式提供了幾個優(yōu)勢:3 A3 M8 i5 `4 N: m
  • 更寬的FP范圍
  • 放大的帶寬
  • 更低的功耗
  • 更精細(xì)的量化粒度
    ; @9 Q- X, Y5 C, b, L5 A
    " N) f4 _, \& I/ X1 |  n9 y
    Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:7 z& c* Z& P! {5 Q" H# {
    9 p: g# y' E! G, f+ N
    1 N4 s0 R, S8 R0 N
    圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。3 |' \) b3 ^' z* z) Y! a0 t
    " f- T+ p: ]3 {$ J5 O2 _4 {% L/ y, s: n
    這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
    7 Z$ _+ Y. _) _5 o  Q* i. \9 i- M8 e  |/ j
    AI網(wǎng)絡(luò):端到端性能和功率擴展$ |( C, }$ g( G9 c* J
    隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。
    : ?6 |8 Y' \4 ?# U % w$ o' u( t  a' N6 ?# i! n2 L. }$ o
    圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
    % T0 ^8 q1 a7 q6 T% i9 l' c2 ?- `% v: k2 e7 _# g- u
    為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
    5 N4 d  S/ l- i- I, o. w% x; x & r0 n9 _+ G. F2 h
    圖9:從Ampere到Blackwell的NVLink性能演進,展示帶寬和鏈路速度的增加。
    8 }6 B9 e2 q4 N3 c& L
    2 h3 o! c1 T0 f$ p$ Y2 D8 lBlackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達到100GB/s。
    + _* J9 E" r; m, }5 y) ~) M  ^  ]
    , f, y9 P, R, ~網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:
    1 ~7 R' q( S; i. X! ], @9 a" c5 x 0 l  D3 w4 h' r" u, _- _- Q7 F1 H
    圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。2 x/ ^7 f1 D1 h+ o+ _& k4 {8 L! D
    2 o, n( l. a" O- ]
    NVLink交換芯片的主要特點包括:* ^. M0 H) d& y5 q0 D1 W% X" ^  b
  • 臺積電4NP工藝中>800 mm2的芯片面積
  • 在GB200 NVL72上將NVLink擴展到72個GPU
  • 通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬
  • SHARP(可擴展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能* E' q! A" [" U/ a' ~& M/ @" c
    1 P. C% ?9 N. D  m9 ]  Z
    NVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。+ Z3 j+ d/ Y" X: @; }) @. A+ t7 x

    6 v( h) A+ o2 l! ~- Z7 dGB200 NVL72和NVL36:新的計算單元
    ' ^; {  z1 Z+ u7 _Blackwell平臺引入了兩種強大的配置:GB200 NVL72和GB200 NVL36,在單個機架中提供前所未有的計算能力。
    1 w# Z  q$ ~' Q' G / L; I3 o  t! ^0 F
    圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。/ S( x- l+ s- x+ }% w
    9 P* ?6 J, r& M6 O2 N5 a3 k* P
    GB200 NVL72配置提供:0 n& H) F2 p5 h& `
  • 36個Grace CPU
  • 72個Blackwell GPU
  • 9個NVL72 NVLink交換托盤
  • 720 PFLOPs的訓(xùn)練性能
  • 1,440 PFLOPs的推理性能
  • 支持27萬億參數(shù)的NVL模型大小
  • 130 TB/s的多節(jié)點帶寬
  • 260 TB/s的多節(jié)點全規(guī)約
    & N/ s$ y! y5 l9 m# A
    * e/ T! ~8 e: [/ `$ ^
    這種配置能夠高效擴展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。+ H' ?  N8 |* C2 F/ C# x
    , b' V" R+ j: h; W: K, ^. F
    圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進。
    ! S! d  K. e3 ~
    0 R6 b, G! Z" AGB200 NVL72配置展示了令人印象深刻的性能提升:
    . S) D- R9 [: o1 }5 E: J
  • 與前代相比,吞吐量提高30倍
  • 能效提升25倍
  • 總擁有成本(TCO)降低25倍
    5 O0 L. I* |# X5 f

    9 P% `- s( m9 u$ o8 `結(jié)論:AI和加速計算的未來
    / x4 n$ A0 r) \2 RNVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
    0 M+ p* n* }' C% ?( E" o
    6 ^7 o" ~% P5 z4 m' }3 H圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進。
    - N8 a$ X# v* Y# I# K4 X+ b
    , Q% _* F/ o+ n5 P4 Z( i/ t. o! ZBlackwell平臺的主要成就包括:
    $ v9 I$ k2 p; x# H
  • 全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機
  • NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性
  • 實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級
  • AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善
    8 i" X$ A, n, C# X7 c" M1 K/ r4 q

    2 V+ ?, O# `; V通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。
    , |6 M3 @, B- J; m9 g7 J
    % p5 _- o2 K3 I  w參考文獻
      J0 Z; I2 Z" R% \[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.
    + I# B  v0 k1 L3 n! K/ T, p3 t" c0 _
    - END -
    , i! u3 I, C3 I1 L
    & R, {* q6 V! ?& y# V4 M1 R: _軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。5 _7 Q0 ~$ n- B
    點擊左下角"閱讀原文"馬上申請
    . S% z1 \' i) ?. \
    / \3 a6 }8 \& a$ ?2 l0 ]6 {* @) \& A歡迎轉(zhuǎn)載0 k1 ?, h% q" e( W, a. a8 z

    6 p7 W0 l! [' a5 t轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    9 i0 p5 r% w: l+ j4 I  s1 E; v. l2 b" M* a

    8 z$ D$ }5 e7 h5 T

    $ \0 }: a4 j2 ^& U * t7 Q8 t3 _, ~, B- t/ R: f
    - x) D$ y" o6 u% F4 Z2 k' k
    關(guān)注我們- [3 D* K9 {2 G6 S& h6 D

    6 c" t! x, s  ]

    8 r( K8 I- c- @  @/ z2 ^ 3 q. k4 {* x: ^9 U

    / S# ]0 \0 c7 p( k
    " E, h' Z. ^. _& P$ P" _
    # W1 I2 R% Y, L

    / L9 R4 I0 e: L* K
                         
    ! C. x3 x: q: l8 F+ _+ ~; K' X1 M5 [
    ) w' ^# O& l7 t9 m

    + v9 S. N. E# y; y關(guān)于我們:& ~% W9 Q" l( p8 N# \6 M
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。; V2 p' e: j4 z

    2 Z6 m0 X( J2 ~! z! ^http://www.latitudeda.com/4 O$ ^* x, b, l4 c' V  T# d
    (點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表