|
引言
4 {$ ^, r: \* t' \+ X! SNVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。
* L/ x9 X @7 E
3 B3 y$ y; E% M4 x) }: INVIDIA Blackwell平臺簡介
% ?1 R5 Y# [ ]( y" A, ~ R! D. nBlackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:
) y+ r5 I: ^4 ?4 v/ P7 [Blackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
: V1 D' c7 M: ]$ V2 f) p
8 a6 _" K# y2 y n/ q' {' { [
xaz3mp4sar56402431047.png (298.89 KB, 下載次數(shù): 0)
下載附件
保存到相冊
xaz3mp4sar56402431047.png
2024-9-26 01:29 上傳
9 q n" | c% l4 S- e圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
% M- N: H4 a9 F# S1 z Q
: h- O3 R4 |4 I這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。
$ t2 J8 r+ W6 H
3 t+ i4 q/ l( `9 \1 T) q3 _9 S
; A# Y7 z4 ^1 gBlackwell GPU:AI計算的新時代6 z! N4 q/ X0 _
Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。7 t& T. a1 r' o$ T1 `$ n) q
kvd42alc1cp6402431147.png (229.35 KB, 下載次數(shù): 0)
下載附件
保存到相冊
kvd42alc1cp6402431147.png
2024-9-26 01:29 上傳
* K' g! m( c3 `& H圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。5 o8 l- @/ G! R3 ^$ v& C& c
/ U/ {' |# y7 i7 f3 h( j0 BBlackwell GPU的主要特點包括: R) E; X" s+ k
使用臺積電4NP工藝制造的2080億晶體管20 PetaFLOPS FP4 AI性能8 TB/s內(nèi)存帶寬,采用8位HBM3e1.8 TB/s雙向NVLink帶寬與Grace CPU的高速NVLink-C2C連接
" O, @1 D- d& N' Y" X: v3 K3 E5 K/ V9 r- t4 ]* ^" K3 u% ]
Blackwell GPU相比其前代產(chǎn)品有顯著進步,提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。* M" q# c1 ]$ \! y& _& @2 U
hrgzto5pnn46402431247.png (240.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
hrgzto5pnn46402431247.png
2024-9-26 01:29 上傳
+ z4 ?: w1 ]. n. J+ |: X
圖3:從Volta到Blackwell的NVIDIA GPU演進,展示晶體管數(shù)量和芯片面積的增加。
. i; S5 S3 }* Y+ h& _- b
- p, v1 }' I" }; z JBlackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。6 A& r4 n6 k3 {! A0 s( M" Z
$ Z( O+ i3 h# G: v$ d K2 @
NVIDIA GB200 Grace Blackwell超級芯片
: b; ~& X' M2 B4 _0 ~GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。
* s3 {& `+ E# Y
zpjgaokcfbe6402431348.png (268.85 KB, 下載次數(shù): 0)
下載附件
保存到相冊
zpjgaokcfbe6402431348.png
2024-9-26 01:29 上傳
* ]5 L3 ?" D g ^圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。4 D0 y* u8 w9 s* `, J+ O
! W& N. P. ~' Y5 G9 r) [GB200 Grace Blackwell超級芯片的主要特點包括:8 \3 q- A7 K% a, j" I7 H
1個Grace CPU和2個Blackwell GPUNVLink-C2C互連40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高帶寬和低延遲通信針對AI工作負(fù)載中的鍵值(KV)緩存進行了優(yōu)化
2 e; R- F" J) R9 c0 \8 c7 I( g- S* b; O0 E8 z9 \7 u
NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI7 e6 L0 a. A, f
Blackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):
2 b0 h7 \5 \! g精度損失非均勻?qū)用舾行?li>窄動態(tài)范圍量化噪聲
1 p( U, R! V- G* f- E
' v" ^8 J6 y) C* {; a: [0 t m$ b) s+ t$ X$ I
m2i32vpsv536402431448.png (270.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊
m2i32vpsv536402431448.png
2024-9-26 01:29 上傳
' a% A4 S' V3 {. O
圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。8 S; j% X/ p! H- M3 G% z2 a
0 w: g% ^: p& J0 m( T$ {
Quasar量化系統(tǒng)包括幾個關(guān)鍵組件:Transformer引擎:硬件和軟件優(yōu)化庫:TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等
8 C' ?/ U+ K8 X& u[/ol]" W4 R8 L# I9 V* z
Blackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。, R' O# ?2 W3 o8 l( @5 E4 _
jqzkjevoimk6402431548.png (304.83 KB, 下載次數(shù): 1)
下載附件
保存到相冊
jqzkjevoimk6402431548.png
2024-9-26 01:29 上傳
& d- `# |5 O$ r+ j# \9 V( B7 R
dph0fqkmada6402431648.png (127.68 KB, 下載次數(shù): 1)
下載附件
保存到相冊
dph0fqkmada6402431648.png
2024-9-26 01:29 上傳
1 O, u1 Y) K: a% L圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
3 a, k) a2 d2 k {6 P) d: Y) @" X, M$ Q# o. T$ Z1 w
這些新格式提供了幾個優(yōu)勢:3 A3 M8 i5 `4 N: m
更寬的FP范圍放大的帶寬更低的功耗更精細(xì)的量化粒度
; @9 Q- X, Y5 C, b, L5 A" N) f4 _, \& I/ X1 | n9 y
Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:7 z& c* Z& P! {5 Q" H# {
9 p: g# y' E! G, f+ N
ozl5hmaalel6402431748.png (114.65 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ozl5hmaalel6402431748.png
2024-9-26 01:29 上傳
1 N4 s0 R, S8 R0 N
圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。3 |' \) b3 ^' z* z) Y! a0 t
" f- T+ p: ]3 {$ J5 O2 _4 {% L/ y, s: n
這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。
7 Z$ _+ Y. _) _5 o Q* i. \9 i- M8 e |/ j
AI網(wǎng)絡(luò):端到端性能和功率擴展$ |( C, }$ g( G9 c* J
隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。
: ?6 |8 Y' \4 ?# U
2jbtw32ba3z6402431848.png (117.29 KB, 下載次數(shù): 0)
下載附件
保存到相冊
2jbtw32ba3z6402431848.png
2024-9-26 01:29 上傳
% w$ o' u( t a' N6 ?# i! n2 L. }$ o
圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
% T0 ^8 q1 a7 q6 T% i9 l' c2 ?- `% v: k2 e7 _# g- u
為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
5 N4 d S/ l- i- I, o. w% x; x
q4xfvrk3fa16402431948.png (627.99 KB, 下載次數(shù): 0)
下載附件
保存到相冊
q4xfvrk3fa16402431948.png
2024-9-26 01:29 上傳
& r0 n9 _+ G. F2 h
圖9:從Ampere到Blackwell的NVLink性能演進,展示帶寬和鏈路速度的增加。
8 }6 B9 e2 q4 N3 c& L
2 h3 o! c1 T0 f$ p$ Y2 D8 lBlackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達到100GB/s。
+ _* J9 E" r; m, }5 y) ~) M ^ ]
, f, y9 P, R, ~網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:
1 ~7 R' q( S; i. X! ], @9 a" c5 x
35kxgkqpwzv6402432049.png (301.81 KB, 下載次數(shù): 0)
下載附件
保存到相冊
35kxgkqpwzv6402432049.png
2024-9-26 01:29 上傳
0 l D3 w4 h' r" u, _- _- Q7 F1 H
圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。2 x/ ^7 f1 D1 h+ o+ _& k4 {8 L! D
2 o, n( l. a" O- ]
NVLink交換芯片的主要特點包括:* ^. M0 H) d& y5 q0 D1 W% X" ^ b
臺積電4NP工藝中>800 mm2的芯片面積在GB200 NVL72上將NVLink擴展到72個GPU通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬SHARP(可擴展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能* E' q! A" [" U/ a' ~& M/ @" c
1 P. C% ?9 N. D m9 ] Z
NVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。+ Z3 j+ d/ Y" X: @; }) @. A+ t7 x
6 v( h) A+ o2 l! ~- Z7 dGB200 NVL72和NVL36:新的計算單元
' ^; { z1 Z+ u7 _Blackwell平臺引入了兩種強大的配置:GB200 NVL72和GB200 NVL36,在單個機架中提供前所未有的計算能力。
1 w# Z q$ ~' Q' G
eo3jvx51lyc6402432149.png (277.8 KB, 下載次數(shù): 0)
下載附件
保存到相冊
eo3jvx51lyc6402432149.png
2024-9-26 01:29 上傳
/ L; I3 o t! ^0 F
圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。/ S( x- l+ s- x+ }% w
9 P* ?6 J, r& M6 O2 N5 a3 k* P
GB200 NVL72配置提供:0 n& H) F2 p5 h& `
36個Grace CPU72個Blackwell GPU9個NVL72 NVLink交換托盤720 PFLOPs的訓(xùn)練性能1,440 PFLOPs的推理性能支持27萬億參數(shù)的NVL模型大小130 TB/s的多節(jié)點帶寬260 TB/s的多節(jié)點全規(guī)約
& N/ s$ y! y5 l9 m# A* e/ T! ~8 e: [/ `$ ^
這種配置能夠高效擴展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。+ H' ? N8 |* C2 F/ C# x
imtnn4vne246402432249.png (97.8 KB, 下載次數(shù): 1)
下載附件
保存到相冊
imtnn4vne246402432249.png
2024-9-26 01:29 上傳
, b' V" R+ j: h; W: K, ^. F
圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進。
! S! d K. e3 ~
0 R6 b, G! Z" AGB200 NVL72配置展示了令人印象深刻的性能提升:
. S) D- R9 [: o1 }5 E: J與前代相比,吞吐量提高30倍能效提升25倍總擁有成本(TCO)降低25倍
5 O0 L. I* |# X5 f
9 P% `- s( m9 u$ o8 `結(jié)論:AI和加速計算的未來
/ x4 n$ A0 r) \2 RNVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
0 M+ p* n* }' C% ?( E" o
k5hui4llqno6402432349.png (254.64 KB, 下載次數(shù): 0)
下載附件
保存到相冊
k5hui4llqno6402432349.png
2024-9-26 01:29 上傳
6 ^7 o" ~% P5 z4 m' }3 H圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進。
- N8 a$ X# v* Y# I# K4 X+ b
, Q% _* F/ o+ n5 P4 Z( i/ t. o! ZBlackwell平臺的主要成就包括:
$ v9 I$ k2 p; x# H全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善
8 i" X$ A, n, C# X7 c" M1 K/ r4 q
2 V+ ?, O# `; V通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。
, |6 M3 @, B- J; m9 g7 J
% p5 _- o2 K3 I w參考文獻
J0 Z; I2 Z" R% \[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.
+ I# B v0 k1 L3 n! K/ T, p3 t" c0 _
- END -
, i! u3 I, C3 I1 L
& R, {* q6 V! ?& y# V4 M1 R: _軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。5 _7 Q0 ~$ n- B
點擊左下角"閱讀原文"馬上申請
. S% z1 \' i) ?. \
/ \3 a6 }8 \& a$ ?2 l0 ]6 {* @) \& A歡迎轉(zhuǎn)載0 k1 ?, h% q" e( W, a. a8 z
6 p7 W0 l! [' a5 t轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
9 i0 p5 r% w: l+ j4 I s1 E; v. l2 b" M* a
8 z$ D$ }5 e7 h5 T
$ \0 }: a4 j2 ^& U
51ru2ery2g36402432449.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
51ru2ery2g36402432449.gif
2024-9-26 01:29 上傳
* t7 Q8 t3 _, ~, B- t/ R: f
- x) D$ y" o6 u% F4 Z2 k' k
關(guān)注我們- [3 D* K9 {2 G6 S& h6 D
6 c" t! x, s ]
8 r( K8 I- c- @ @/ z2 ^
gslhxcf1eyg6402432549.png (31.33 KB, 下載次數(shù): 1)
下載附件
保存到相冊
gslhxcf1eyg6402432549.png
2024-9-26 01:29 上傳
3 q. k4 {* x: ^9 U
|
/ S# ]0 \0 c7 p( k
pks442qgcst6402432649.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
pks442qgcst6402432649.png
2024-9-26 01:29 上傳
" E, h' Z. ^. _& P$ P" _ | # W1 I2 R% Y, L
3u0h1j54xwh6402432749.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
3u0h1j54xwh6402432749.png
2024-9-26 01:29 上傳
/ L9 R4 I0 e: L* K |
! C. x3 x: q: l8 F+ _+ ~; K' X1 M5 [
) w' ^# O& l7 t9 m
+ v9 S. N. E# y; y關(guān)于我們:& ~% W9 Q" l( p8 N# \6 M
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。; V2 p' e: j4 z
2 Z6 m0 X( J2 ~! z! ^http://www.latitudeda.com/4 O$ ^* x, b, l4 c' V T# d
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|