|
引言
6 T" p! h; n6 W1 O; E) FNVIDIA Blackwell平臺代表了生成式AI和加速計算領(lǐng)域的重大進(jìn)步。本文將討論Blackwell平臺的關(guān)鍵組件和創(chuàng)新,展示其如何應(yīng)對AI工作負(fù)載的不斷增長需求,并推動計算能力的極限[1]。
* b% ^. P5 y# E( B N, s6 X" l% q7 s1 m
NVIDIA Blackwell平臺簡介
: l% ~: u Y+ z& n" v' [ {: BBlackwell平臺是NVIDIA最新推出的數(shù)據(jù)中心規(guī)模架構(gòu),旨在應(yīng)對日益復(fù)雜的AI模型和加速計算任務(wù)帶來的挑戰(zhàn)。該平臺的核心組件包括:0 F" z7 f( ^! `
Blackwell GPUGrace CPUNVSwitch芯片BlueField-3ConnectX-7和ConnectX-8Spectrum-4和Quantum-3網(wǎng)絡(luò)解決方案
6 c5 d6 L; f* _
& |, W5 p& ], H8 \
xaz3mp4sar56402431047.png (298.89 KB, 下載次數(shù): 0)
下載附件
保存到相冊
xaz3mp4sar56402431047.png
2024-9-26 01:29 上傳
: q7 l& h* H3 u圖1:NVIDIA Blackwell平臺組件,包括Blackwell GPU、Grace CPU、NVSwitch芯片、BlueField-3和網(wǎng)絡(luò)解決方案。
7 `) z0 D. f2 s. e2 D# b! w9 X( e
這些組件協(xié)同工作,為AI和高性能計算工作負(fù)載提供全面的解決方案。該平臺建立在NVIDIA開發(fā)CUDA-X庫的豐富經(jīng)驗基礎(chǔ)上,這些庫優(yōu)化了各種應(yīng)用領(lǐng)域的性能。( {$ I( U! i: h" Y
c3 O% h' f- V. e" d o* D1 r" h3 a# b8 {
Blackwell GPU:AI計算的新時代2 t: s) [- O% O
Blackwell GPU是Blackwell平臺的核心,這項工程奇跡推動了AI計算的可能性邊界。
# c. X/ j, Q( P8 R
kvd42alc1cp6402431147.png (229.35 KB, 下載次數(shù): 0)
下載附件
保存到相冊
kvd42alc1cp6402431147.png
2024-9-26 01:29 上傳
, k( X5 j, Y' }9 c9 W* w
圖2:NVIDIA Blackwell GPU,展示其主要特性和功能。& \! _7 O( D& L6 k( Q
) D2 O3 i! ]% cBlackwell GPU的主要特點包括:
" R1 a/ N1 ^' E4 Y1 \使用臺積電4NP工藝制造的2080億晶體管20 PetaFLOPS FP4 AI性能8 TB/s內(nèi)存帶寬,采用8位HBM3e1.8 TB/s雙向NVLink帶寬與Grace CPU的高速NVLink-C2C連接
: a; m" x' `9 z) Y
$ @$ a* d2 z3 D. UBlackwell GPU相比其前代產(chǎn)品有顯著進(jìn)步,提供更強大的AI計算能力、內(nèi)存帶寬和互連能力。
# A" q- R ~9 a; ?$ Y
hrgzto5pnn46402431247.png (240.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
hrgzto5pnn46402431247.png
2024-9-26 01:29 上傳
# s1 M* a% L. [2 L3 J! g& G' p圖3:從Volta到Blackwell的NVIDIA GPU演進(jìn),展示晶體管數(shù)量和芯片面積的增加。' T$ B T( Y6 w" ^$ g, i9 S
& d* [1 h* f; o4 k% PBlackwell GPU的一項關(guān)鍵創(chuàng)新是NVIDIA高帶寬接口(NV-HBI),在單邊提供10 TB/s的雙向帶寬。這個接口允許創(chuàng)建具有全面性能的統(tǒng)一GPU,不犧牲速度或效率。7 h5 `) e, u: L6 h% a( n9 K |
! f2 z- N8 z7 ?3 E/ ]; W! W# N
NVIDIA GB200 Grace Blackwell超級芯片
/ V% {" j: s* T1 Y! O8 Y1 o' [GB200 Grace Blackwell超級芯片將Grace CPU和Blackwell GPU的性能結(jié)合在一個封裝中,為AI工作負(fù)載提供無與倫比的性能。
1 u3 x6 x, _: i/ N8 J* E) s' F
zpjgaokcfbe6402431348.png (268.85 KB, 下載次數(shù): 0)
下載附件
保存到相冊
zpjgaokcfbe6402431348.png
2024-9-26 01:29 上傳
5 e: B0 w# [. A6 c1 c圖4:GB200 Grace Blackwell超級芯片,展示Grace CPU和Blackwell GPU的集成。: h# J0 z8 L7 }8 Q7 g: |( ]
# B3 E; Z. l+ c9 A6 U4 ~' x4 j5 VGB200 Grace Blackwell超級芯片的主要特點包括:1 g6 V+ |: c: D+ {
1個Grace CPU和2個Blackwell GPUNVLink-C2C互連40 PetaFLOPS FP4 | 20 PetaFLOPS FP8性能高帶寬和低延遲通信針對AI工作負(fù)載中的鍵值(KV)緩存進(jìn)行了優(yōu)化' o( Q4 p9 h8 z1 g( ?* X
4 p4 j1 @1 \8 o( Y4 \
NVIDIA Quasar量化系統(tǒng):實現(xiàn)低精度AI
0 c: M* G- }! [4 r% {! h' ], }2 tBlackwell平臺引入了NVIDIA Quasar量化系統(tǒng),實現(xiàn)低精度AI計算而不犧牲準(zhǔn)確性。該系統(tǒng)解決了與低精度計算相關(guān)的幾個挑戰(zhàn):! E6 a9 T" S" f H9 c8 }
精度損失非均勻?qū)用舾行?li>窄動態(tài)范圍量化噪聲8 ^( h/ V# {8 V3 @
+ T' `, t) j1 A3 R0 Y# i+ s, Y$ e( V+ T
m2i32vpsv536402431448.png (270.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊
m2i32vpsv536402431448.png
2024-9-26 01:29 上傳
8 L! T. N' ~+ Z圖5:NVIDIA Quasar量化系統(tǒng),說明組件和研究領(lǐng)域。- Q7 E3 K* ~1 R/ A9 w
* w- f9 y' S4 A
Quasar量化系統(tǒng)包括幾個關(guān)鍵組件:Transformer引擎:硬件和軟件優(yōu)化庫:TensorRT、TensorRT-LLM、Megatron-Core、cuDNN等低精度數(shù)值算法:基于敏感度的層選擇、動態(tài)范圍正則化等/ n) b- G9 }* b
[/ol]
7 C. y# K$ Z r& WBlackwell GPU最顯著的創(chuàng)新之一是第5代Tensor Core,引入了新的微張量縮放FP格式,包括FP4和FP6。# P9 W" [ f3 Z5 w
jqzkjevoimk6402431548.png (304.83 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jqzkjevoimk6402431548.png
2024-9-26 01:29 上傳
$ M- c& D/ ?5 F% m7 W
dph0fqkmada6402431648.png (127.68 KB, 下載次數(shù): 0)
下載附件
保存到相冊
dph0fqkmada6402431648.png
2024-9-26 01:29 上傳
" Y$ X! p. T* n. ~* t+ x
圖6:第5代Tensor Core支持的FP格式總結(jié),比較Hopper和Blackwell的性能。
* b$ ^1 M7 O* [/ X2 d; C
0 c P; P% g/ ~# x# Y" m$ O這些新格式提供了幾個優(yōu)勢:
' R9 W/ P5 @5 k更寬的FP范圍放大的帶寬更低的功耗更精細(xì)的量化粒度
' [' n& Y5 b: H0 T
% i" I. C+ ~ q' u @Quasar量化系統(tǒng)的有效性通過令人印象深刻的FP4推理準(zhǔn)確性結(jié)果得到證明:+ t# y2 ^+ D. _2 I4 B8 P8 {# b, F S
" |9 Y" C3 @! |7 b) c8 D
ozl5hmaalel6402431748.png (114.65 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ozl5hmaalel6402431748.png
2024-9-26 01:29 上傳
. I2 ~7 Q \1 {, }+ Q3 p
圖7:各種模型的FP4推理準(zhǔn)確性結(jié)果,比較BF16和量化FP4性能。% y! O! \3 e$ o1 X1 }" v
- I, m- q- t9 d6 w
這些結(jié)果表明,即使是像Nemotron-4 340B這樣的大型語言模型,使用量化FP4也能達(dá)到出色的MMLU(大規(guī)模多任務(wù)語言理解)分?jǐn)?shù),匹配甚至略微超過BF16模型的性能。, p$ y5 d+ b1 M" h9 c$ c
7 M; e6 M3 s- B# z* C2 Y* U# `. h1 J8 GAI網(wǎng)絡(luò):端到端性能和功率擴展# K, l& E9 T( b5 o
隨著AI模型規(guī)模和復(fù)雜性的指數(shù)級增長,對大規(guī)模多GPU推理的需求變得越來越重要。Blackwell平臺通過先進(jìn)的網(wǎng)絡(luò)解決方案應(yīng)對這一挑戰(zhàn)。
' w! p; X4 i+ ?' m, P% p
2jbtw32ba3z6402431848.png (117.29 KB, 下載次數(shù): 0)
下載附件
保存到相冊
2jbtw32ba3z6402431848.png
2024-9-26 01:29 上傳
, V+ g' R; L( e6 \8 ~圖8:AI模型規(guī)模隨時間的增長,說明參數(shù)數(shù)量的指數(shù)級增加。
1 p9 i7 `# A: v k& T6 s
: Y. s. Q( w; s為滿足這些不斷增長的模型需求,NVIDIA開發(fā)了世界級的NVLink PHY性能:
+ E! D* }+ J1 x R
q4xfvrk3fa16402431948.png (627.99 KB, 下載次數(shù): 0)
下載附件
保存到相冊
q4xfvrk3fa16402431948.png
2024-9-26 01:29 上傳
N2 V6 f" y) `$ s, D- {
圖9:從Ampere到Blackwell的NVLink性能演進(jìn),展示帶寬和鏈路速度的增加。) l8 H4 Z$ p# i2 j+ R
) h0 B7 e' L; }Blackwell平臺引入了第5代NVLink PHY,通過18個NVLink提供1800GB/s的總帶寬,每個NVLink能力達(dá)到100GB/s。
I9 o) M) H6 M% P e: h( C9 }' O9 M+ l- z2 n
網(wǎng)絡(luò)解決方案的另一個關(guān)鍵組件是第4代NVLink Switch Chip和NVLink Switch Tray:3 {/ b8 A+ V1 V& w8 Z' i) d! B) d
35kxgkqpwzv6402432049.png (301.81 KB, 下載次數(shù): 0)
下載附件
保存到相冊
35kxgkqpwzv6402432049.png
2024-9-26 01:29 上傳
6 y" }! I _+ Z5 k- {3 j' b圖10:第4代NVLink Switch Chip和NVLink Switch Tray,突出顯示主要特性和功能。
8 T$ I) \ N$ `, h2 }% }# a+ {/ s
$ i2 A8 U* ~7 b7 tNVLink交換芯片的主要特點包括:1 n T: d3 F- i8 o
臺積電4NP工藝中>800 mm2的芯片面積在GB200 NVL72上將NVLink擴展到72個GPU通過72個端口實現(xiàn)7.2 TB/s全雙向帶寬SHARP(可擴展分層聚合和規(guī)約協(xié)議)網(wǎng)內(nèi)計算,3.6 TFLOPS性能
% U# R# d- s6 t+ F* M4 `; K B% \
! _0 G& V: \' }0 r. eNVLink交換托盤包含兩個NVLink交換芯片,提供總計14.4 TB/s的帶寬。 n6 M, S' r) O% S# [& m
% V, J( E% U! x7 { }6 Q0 b: nGB200 NVL72和NVL36:新的計算單元
6 B U$ {" j% u- m2 M6 D) SBlackwell平臺引入了兩種強大的配置:GB200 NVL72和GB200 NVL36,在單個機架中提供前所未有的計算能力。3 O/ q/ w" H% |
eo3jvx51lyc6402432149.png (277.8 KB, 下載次數(shù): 0)
下載附件
保存到相冊
eo3jvx51lyc6402432149.png
2024-9-26 01:29 上傳
1 v6 L( K1 X& `$ ]3 h圖11:GB200 NVL72和NVL36配置,展示每種設(shè)置中的GPU、CPU和NVLink交換托盤數(shù)量。4 _" F8 d; H' I7 }5 O
0 S9 ?# ] s! `8 k# C# ^9 @, E4 i+ eGB200 NVL72配置提供:
5 a0 d5 S; I( S& Y36個Grace CPU72個Blackwell GPU9個NVL72 NVLink交換托盤720 PFLOPs的訓(xùn)練性能1,440 PFLOPs的推理性能支持27萬億參數(shù)的NVL模型大小130 TB/s的多節(jié)點帶寬260 TB/s的多節(jié)點全規(guī)約
# p: b; Q6 h' B p1 u# z
8 `3 t4 B8 F& F這種配置能夠高效擴展大型AI模型,包括具有1.8T參數(shù)的GPT專家混合(MoE)等萬億參數(shù)架構(gòu)。4 \8 }! r4 _# l% G
imtnn4vne246402432249.png (97.8 KB, 下載次數(shù): 0)
下載附件
保存到相冊
imtnn4vne246402432249.png
2024-9-26 01:29 上傳
: L2 q# D6 `0 U: f/ [圖12:GB200 NVL72在萬億參數(shù)AI模型上的性能比較,展示吞吐量和能效的改進(jìn)。
! m3 i% A4 R4 v; T1 _9 f [5 Z3 ^# M% ~1 v
GB200 NVL72配置展示了令人印象深刻的性能提升:% T- ~% l( j2 w) i: C
與前代相比,吞吐量提高30倍能效提升25倍總擁有成本(TCO)降低25倍
2 }+ q: G t6 [: O
4 D' l; [5 ]1 A, Z6 S結(jié)論:AI和加速計算的未來: |, ^5 w* _* `9 U W
NVIDIA Blackwell平臺代表了AI和加速計算領(lǐng)域的重大進(jìn)步。通過解決不斷增長的模型規(guī)模、計算需求增加以及高效網(wǎng)絡(luò)需求的挑戰(zhàn),Blackwell為性能和效率設(shè)立了新標(biāo)準(zhǔn)。
' F H9 E" w) O L+ u3 q% Q" v
k5hui4llqno6402432349.png (254.64 KB, 下載次數(shù): 0)
下載附件
保存到相冊
k5hui4llqno6402432349.png
2024-9-26 01:29 上傳
! R4 [+ X+ u+ q, t6 e: e3 s. Y. X圖13:NVIDIA數(shù)據(jù)中心規(guī)模架構(gòu)的路線圖,展示從Hopper到Blackwell及未來的演進(jìn)。, r( _9 ]; s1 K! N1 S9 B( N
* C2 E( d6 N$ `6 \- wBlackwell平臺的主要成就包括:. a$ m' b" D' ?2 e9 Q2 H. d3 ]- j
全棧、數(shù)據(jù)中心規(guī)模平臺,涵蓋GPU、CPU、NVSwitch、DPU、NIC和網(wǎng)絡(luò)交換機NVIDIA Quasar量化系統(tǒng)實現(xiàn)低精度AI而不犧牲準(zhǔn)確性實時萬億參數(shù)LLM推理性能提升超過一個數(shù)量級AI訓(xùn)練、推理和加速計算的性能和功耗顯著改善
2 {( y1 Y" A( f1 b/ O" {: f, L0 m) a) c4 P2 F' { Z, l+ D! @2 C
通過提供必要的計算能力、內(nèi)存帶寬和網(wǎng)絡(luò)能力,Blackwell使研究人員、開發(fā)人員和企業(yè)能夠解決日益復(fù)雜的問題,在人工智能和高性能計算領(lǐng)域開啟新的可能性。8 ^9 F/ R% I$ `9 ?
) W4 l- F n) s. _3 B8 ^. k
參考文獻(xiàn)
" m; Z6 m1 V6 }! C6 Q) a7 n[1] Tirumala and R. Wong, "NVIDIA Blackwell Platform: Advancing Generative AI and Accelerated Computing," Hot Chips: A Symposium on High Performance Chips, 2024.: v+ t, ^2 R" r' _/ k% |6 c
3 b- E/ a+ u. j% G/ J! ?9 W- END -- P7 b8 z/ i8 D, Z5 i% k/ a4 e' O! c
. ^/ b' @3 u3 O軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。! w+ I: |7 D9 L, E% E/ W
點擊左下角"閱讀原文"馬上申請
) x- P0 F. @" ] }5 h" Q. B" w5 Z% j2 S- ]$ E2 p# Z3 @
歡迎轉(zhuǎn)載- W# ]) t4 r" l
% g& t% k* [! W8 I ?
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!7 }4 s7 ~ D) K1 T. P% m4 ]" n
/ c' z% F8 [. c0 `) T$ |# x/ ~3 F+ P/ T/ c; u' a8 g3 K
# W% }' y( j- K# \- z% v0 `: @
51ru2ery2g36402432449.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
51ru2ery2g36402432449.gif
2024-9-26 01:29 上傳
- G1 ?- g0 {2 Q0 O1 Y8 A8 [
9 r3 B3 Z& t4 _% G% l5 W
關(guān)注我們
6 x ^* `# E& m# a5 Y u/ r* Z% l4 \7 ]! r' i
5 w' q$ g1 W' W2 d9 q: N2 g
gslhxcf1eyg6402432549.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
gslhxcf1eyg6402432549.png
2024-9-26 01:29 上傳
9 U# H5 Q3 `) v: d
|
6 F! _9 X0 }9 v4 {8 G- K
pks442qgcst6402432649.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
pks442qgcst6402432649.png
2024-9-26 01:29 上傳
" t8 w8 N9 F/ k8 A# E ^3 G |
4 }3 V! G: f/ ~ ~
3u0h1j54xwh6402432749.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
3u0h1j54xwh6402432749.png
2024-9-26 01:29 上傳
c7 J3 O3 [0 H, v" M) ?( g `& f( a |
! w& b* \+ F* R0 h
3 ]7 C4 C) x+ G1 l% }) K3 A B6 |3 w# j) `
( m3 s5 S9 Q" J+ [關(guān)于我們:
: E8 f" a, l5 n& S h+ c( p深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。" o0 g. B1 X& |" }
$ Q/ f3 ]+ @, c! r2 w7 ?
http://www.latitudeda.com/
! Q- x2 K5 c. A6 g(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|