|
引言( z: p, r% j* B) z, t
本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。0 D0 ^ g" {( W! g6 k, D
3 N0 c9 x$ X$ @& g+ `AMD Instinct MI300X簡介, ^1 R2 O! k; x( f; Z' P$ j
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。; b! X; r/ B; l
: ] M- r6 Q/ `9 F4 s8 ~( A$ e+ t8 ]
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 3)
下載附件
保存到相冊
q2iowyshnqu64024937633.png
2024-9-30 01:35 上傳
6 ~, H6 E D; Q9 }# f& I+ U) d
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。3 ~ e( f6 |$ Z* e! ]7 h
% b i' g- L4 p! M$ J- m
架構(gòu)概述
; V! G( j& @: U3 aMI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。
3 k) L. A( ?, x
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 3)
下載附件
保存到相冊
yh3125r1hyw64024937733.png
2024-9-30 01:35 上傳
4 s! ?; W: ?4 m' s圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
+ Z' H |/ C; x6 G+ `) @. o0 \+ d5 I4 _4 ~5 P% O+ B
MI300X的主要特性包括:. W4 y% U/ G* ?! M3 E/ P
304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s
; W# Y- M; G' G% D7 q
0 v% M4 S9 v5 g. B% }MI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。) M8 Q5 V2 O- i `( _
' A% Z' E% U/ M9 }0 L# z% HCDNA 3架構(gòu)改進(jìn)
3 Q$ ^% B2 m0 _* a: ~# vCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
/ S( o& E: K' |每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行9 i# n0 j- J) e& w7 Q9 P- n% K
/ i ~+ m) z& Y) y# F! f: u7 P
! c: [; W% C/ h- ?
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 3)
下載附件
保存到相冊
ogek23y05in64024937833.png
2024-9-30 01:35 上傳
5 r1 w, B4 z+ D1 f) C( R' R" Y圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。" T& l+ J0 X$ S0 }% c
" T! H& m* b, t1 B( o
8 j) O& i9 J, J8 s# ]" Y* Y內(nèi)存系統(tǒng)- |9 _2 M- f% ?/ I* t
MI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):8 d( a( @8 T! a* p: c. u- o9 _
全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
4 P2 M2 X5 b" t, p+ P3 f! E; j3 K+ W1 S$ L
這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
* [/ p: z+ B$ T0 K
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 3)
下載附件
保存到相冊
abjx3vckule64024937933.png
2024-9-30 01:35 上傳
3 J6 J& }$ Y. [ |+ }& p圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。
& {" R9 \1 f1 L: N6 n( z: \% ^) h0 j0 i2 Y
緩存層級(jí)和Infinity Cache
# j9 h5 ?, t$ j& `MI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu):
* i2 D: ]! l/ v) U0 X7 I. \# p每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每兩個(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache6 y% A4 b1 |! P$ N! U6 g
3 A8 H6 E) [7 _+ I
& E1 X& Z6 _- d* f3 n5 d$ G
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 3)
下載附件
保存到相冊
4exaqyeliv064024938033.png
2024-9-30 01:35 上傳
d4 x+ J1 f9 j圖5:MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。
' I2 \7 q9 k8 J0 u$ i, { A" t8 j
Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。4 g3 `( s: t! X) {- |( A# k
+ f, F: a8 B' Z9 z7 Z空間分區(qū)和虛擬化
3 `3 ^2 P( w% A. Q; IMI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):; y Q7 U9 v0 }( x" ]
可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
W- Z5 |$ e2 i/ D$ f# C B
/ U( f9 m. g. }6 t1 q' Z
2 p# Q+ x# e2 i+ A4 `! C6 _3 P
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 3)
下載附件
保存到相冊
ggm0g4zyhjz64024938133.png
2024-9-30 01:35 上傳
" ?0 h8 t7 B% {1 P
圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。
# R) ?# a8 B$ q p8 J2 g5 C/ ?# O8 p) |
AMD Instinct MI300X平臺(tái)/ t1 s) v( {+ i8 `
MI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括: W; b9 X3 U+ H) F: A) ?
8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s
: X2 z! Q3 u: C# j& C: X4 [9 _5 V& ^3 k7 L8 Z+ k; K8 v* ~: ~
2 e" `; D/ A& ~- e( |
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 3)
下載附件
保存到相冊
fxyxxvy0tm164024938233.png
2024-9-30 01:35 上傳
' ^) _* R6 W' _0 P2 |) n0 S
圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。2 K6 h) Y3 @& l+ {- \6 q! @" \
+ |5 o- Z. ]/ HInfinity平臺(tái)和生態(tài)系統(tǒng)
! {% \' D6 a' V, {% K% g3 P% UMI300X Infinity平臺(tái)通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:6 Y# x' I' \4 |1 v: d3 \0 L
七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)9 d7 X( G. S6 d7 Q! u( I8 L
% o) l: J/ R* g: `/ O
& d5 ]" G6 q# o3 t h" o5 [! Q- J
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 3)
下載附件
保存到相冊
bfmnlzuyiwz64024938334.png
2024-9-30 01:35 上傳
$ x& F% H+ L4 @6 X$ s
圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。
. u8 c& |5 ~0 g4 Z! M
2 `( H. @2 Y# [9 C* K8 x該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性:
8 a' s! Z& }' I8 R( K# K符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測和固件管理功能% c; e" ?$ h$ `2 K$ i( V$ E
% I5 T! U3 t. Z
軟件生態(tài)系統(tǒng)
% E, r# u% O' e0 t! YAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
8 a" G" F6 V: xROCm(Radeon開放計(jì)算)平臺(tái)用于GPU計(jì)算針對AI和HPC工作負(fù)載優(yōu)化的庫支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
8 Y9 A+ y0 j9 @& `) \5 L
6 W# G0 n) i$ U3 v; z這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
0 B& J M: L+ y: ~: [ D, f! L a# ^; v, n# a2 J4 R4 c+ e' J( w! G
AI工作負(fù)載性能
0 q4 r2 R9 }; e k$ LMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:( [# K- e+ ]1 E! j7 Q. v
Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色
# `: v: [! e Y* A, }% Z& g* D
; d5 v4 s% g3 N( R, W6 `2 _- y. x; N9 B
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 3)
下載附件
保存到相冊
qdmdth2s0oc64024938434.png
2024-9-30 01:35 上傳
5 y( K& Q1 x7 o1 `圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。5 |1 K9 N5 B% p, i8 b5 T( W) T
) b& R& I9 c3 P3 O7 }0 B/ F
結(jié)論
' Z! z5 }* U4 @+ X' I) E6 {2 zAMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。
" S' l: I1 O4 ^! w' k# i( N' ]; x' D( `! U4 S
憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。
7 o/ e+ @. D$ s# G% m
9 B/ c( k5 K# q0 }+ c$ Y參考文獻(xiàn)
1 |+ M1 W4 b3 q2 z* X" u% A[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
7 e, i# _1 I( w$ ~. E9 ?, T; B5 W Q& f$ ?& e4 i& R! F U
- END -5 ?5 ?9 x, l' u
! E" a7 H, H; s9 X6 O! M
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。0 j1 [: e: a1 i) O/ G
點(diǎn)擊左下角"閱讀原文"馬上申請' ], M1 d% m m0 s2 S' x# u
( E) G7 @& I7 k4 ], C
歡迎轉(zhuǎn)載# Z/ w6 S; R3 X5 `) W1 k+ Z1 f6 f$ T
/ a0 m2 _8 P% ?9 W轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!: B2 Y. O/ P, a+ I
4 w) P8 _- K4 D0 C* R- w
3 |2 |! N" ]" f
; ]$ \+ x$ E' f0 R* ?) u! a
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 3)
下載附件
保存到相冊
whraycy4pwq64024938534.gif
2024-9-30 01:35 上傳
0 c0 D. L9 N: T1 H( |/ [( [
! @- W/ N/ N4 l% }0 n關(guān)注我們
, @7 M. q+ b1 t, V' j
% I5 \# h9 |. y2 C+ l, ?6 U5 {9 g
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 3)
下載附件
保存到相冊
k5tkk1oi1r364024938634.png
2024-9-30 01:35 上傳
1 q+ {8 ]+ y7 R T: W: o7 i
| ) h# M, q6 ^ @: s% F) ]
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊
an1bh1cylh464024938734.png
2024-9-30 01:35 上傳
. s* }. G: ? e. l |
$ j, Z& Y, x" W( T
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 5)
下載附件
保存到相冊
hktsuthux0d64024938834.png
2024-9-30 01:35 上傳
/ ^7 ^& |+ T+ j) {3 c( v* ^
| - m. j) T4 t/ B* x" }4 W
( w% N9 V1 z4 E# U
4 J' y' g6 J3 n3 Y; H: f. g# |
& F; `+ {, f% _% [ V5 J4 o" u( a關(guān)于我們:* `: G, e* A" Y
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。2 a7 P0 f4 k) Q2 E1 j3 p' |. W
) f5 L5 ]. @" a e( N9 ~http://www.latitudeda.com/3 {; T/ K. O) C( N4 K
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|