|
引言
# W9 J- I0 P$ p) K6 }本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
/ X, X6 _4 J v Y, P+ b
* l' h3 q! F. u2 C( Q; g: _AMD Instinct MI300X簡介
0 `4 }; }% m$ I: uAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。! w7 X$ Z( h) R
# ~& D4 |, N8 G& V. K
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 9)
下載附件
保存到相冊
q2iowyshnqu64024937633.png
2024-9-30 01:35 上傳
- N3 I9 U! o! y, o: a* t) G
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。4 ~3 L7 i' \, }' r2 b) h7 C# s7 \
: d- i2 U( @6 s& Z1 J2 A架構(gòu)概述4 Z1 F8 _' h" v! ]; s0 b: `( M: G: t
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。
8 r5 G: H' v0 g5 z# }% x" ?2 r
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 9)
下載附件
保存到相冊
yh3125r1hyw64024937733.png
2024-9-30 01:35 上傳
) m+ X \# K3 Q( w/ B圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
2 B9 d8 w9 z! Q5 t2 V1 ~
4 r" u. Y( R. Z5 rMI300X的主要特性包括:
* K1 }% ]% }+ _1 z/ u304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s
+ K: u: v7 A+ P5 K: X7 x' [1 H3 _9 l! Y% X
MI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。( A" q- N% B$ o4 G/ `7 ?
3 M/ I: ]" e( i" ]+ |6 RCDNA 3架構(gòu)改進(jìn)- ]+ j4 E# n4 M( Y O
CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
* w n! k% G9 y9 N3 [每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行
4 I6 B* g& U1 g/ N4 R: u# [$ l1 Y4 @: q0 @- ?/ V+ A6 S: g
- `& w, W( p9 \ Z
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 10)
下載附件
保存到相冊
ogek23y05in64024937833.png
2024-9-30 01:35 上傳
/ e; s) u: s2 Q/ I
圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。3 n" x+ _' I, e& W/ m8 f
3 k! G! x7 B- w: N3 w+ a5 {
7 W6 t2 p- T! c" u0 F( L7 ]* N9 |
內(nèi)存系統(tǒng)
6 ]6 w" A8 I5 M2 N) \4 O% V3 O; y) yMI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):
$ s, M l$ ?& G* v/ ?* t0 s& [全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
8 }% ~ p) C8 n; i8 _
' _& i/ C7 W4 T2 w3 r這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
' N1 F! J F4 R6 m6 s
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 9)
下載附件
保存到相冊
abjx3vckule64024937933.png
2024-9-30 01:35 上傳
, F3 U1 V. C2 k3 U, U5 Y7 b
圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。( q. B. B# c }8 o3 L
1 L4 [# [4 y) l, f. F* k緩存層級和Infinity Cache$ {* H' a! {' t9 E. {
MI300X具有復(fù)雜的緩存層級結(jié)構(gòu):+ h5 z# V1 e# @7 I: C: L! ^" l
每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每兩個(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache
5 C2 U1 H3 ^8 d9 e6 s
$ }5 H6 P8 M1 {! n: |0 J3 d- @, D9 r$ l
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 10)
下載附件
保存到相冊
4exaqyeliv064024938033.png
2024-9-30 01:35 上傳
5 @. t1 A# e) H圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
( C" M: @: \* a* f7 k# e0 C( `( D7 N' F* J- r( _, X- ~4 o8 M
Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
4 C0 X8 G L5 h1 |* a5 D" J e& y
空間分區(qū)和虛擬化0 R5 z- R2 C7 g
MI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):9 _9 c$ r$ X& x% p! |' ~1 x# e
可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
+ l0 q5 n; \9 `
1 f# G; { R" h1 \) s8 l
$ ]) W+ R0 \1 ~# O
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 10)
下載附件
保存到相冊
ggm0g4zyhjz64024938133.png
2024-9-30 01:35 上傳
, x! i. W: a, p; I$ v圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。# a3 r9 }8 `; o# i5 t6 ^( ?$ Y
2 d+ r, m7 ^* K2 M' \1 Z7 J
AMD Instinct MI300X平臺(tái)' H$ @4 Q% V1 L0 e( {+ C
MI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:8 S; X3 _/ o& J( p+ \% a
8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s
, Y0 f& @5 E! v/ d4 Q# M5 k
. f: `' O4 g, v$ u% H2 ~# l
) C4 a d6 Z# ^' y J
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 10)
下載附件
保存到相冊
fxyxxvy0tm164024938233.png
2024-9-30 01:35 上傳
* {/ p* k1 V0 R+ F9 U8 L圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。& c7 ` [ X- J; o4 r4 ]
1 G: k/ q8 N6 w# _+ x# e
Infinity平臺(tái)和生態(tài)系統(tǒng)" l* W2 _" d4 S8 z6 l2 q
MI300X Infinity平臺(tái)通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:' X2 Q0 j/ d1 d7 X7 h
七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
) W; m8 W8 j' E1 K: _: c, P+ d- b& L D3 s: x* C
2 w2 V/ `% I8 ` w2 p4 T3 _
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 9)
下載附件
保存到相冊
bfmnlzuyiwz64024938334.png
2024-9-30 01:35 上傳
8 S5 f' G5 `" u! r8 @圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。
# Y9 e8 s" q3 u* A* X
5 Q8 [* U3 z# c6 m* i該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:
% ]7 D0 B9 d0 g3 l+ A0 m& ~符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測和固件管理功能
$ b K d h) H/ y3 \: t
* q; ]8 n* t" z. m1 z) Y6 N軟件生態(tài)系統(tǒng); ~8 L7 ?8 ~9 e5 Z( H
AMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):0 U; u# U! T9 k+ B$ p I! E3 ^3 Z" `
ROCm(Radeon開放計(jì)算)平臺(tái)用于GPU計(jì)算針對AI和HPC工作負(fù)載優(yōu)化的庫支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
& E3 q9 r- o" b, F0 l; m
9 Y8 N( x, T5 O" E這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
# P+ p- H1 i' b( y H
0 ]8 `9 g7 o/ I8 B, o: g7 ?AI工作負(fù)載性能
: [+ L7 r" R6 uMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:1 g+ V W, S% G% h2 f& m
Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色, R* v; x' v$ u7 I
& P8 T9 |; ]. Y6 ^6 \. [% q9 W
6 M6 k, I' ]9 }/ j# {& }! n% K
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 10)
下載附件
保存到相冊
qdmdth2s0oc64024938434.png
2024-9-30 01:35 上傳
J2 B& \3 _, h: @圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。
9 T% c9 K( E" ]6 x# P6 g
7 J+ O+ x9 O+ _' H; g0 \8 Z, q結(jié)論
# T' W- j Z% c4 ?# P7 l; e% `( _; SAMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。4 L- q% X! a4 W5 y) r0 l# _
* c; N5 y6 y: H( b7 I) D憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。8 V, b2 G/ O& D7 c1 I- {& }: U
+ g \6 u+ V, O" Q; D
參考文獻(xiàn)
% {4 u6 h8 B/ P[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
! l' B; J p7 t% Z* b: e
; ?0 [0 H& S3 f4 F" F9 [2 O( w- END -
% j" c) v* {7 n7 x
( V2 K, T/ a5 @6 w軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
* J) ?4 |. G+ o4 a) a$ i點(diǎn)擊左下角"閱讀原文"馬上申請
6 U2 z, N$ s5 U6 |& w& x8 o+ M7 W' I" B/ Y$ G% ?* E
歡迎轉(zhuǎn)載
& o6 R v3 d+ f. c. e7 H9 S) d6 z' Y1 I/ D' L) P
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!1 U, B3 H( Z! f1 A
& Y. N k" X& r: p& b0 ^5 e( C- W1 U2 D. p) i0 q
4 K8 `/ G" _& F- u0 Y
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 10)
下載附件
保存到相冊
whraycy4pwq64024938534.gif
2024-9-30 01:35 上傳
5 e, g0 ~% Z1 @. o: {
; w# x4 ^) s8 R! @. z' g關(guān)注我們% c4 v- p$ l8 F. k) M
8 J. E, w( p' N* N0 h* ^' u
' w& }* w7 x( l7 r& D$ ?
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 9)
下載附件
保存到相冊
k5tkk1oi1r364024938634.png
2024-9-30 01:35 上傳
% S+ z$ w$ T f- f0 x! i! } | / R5 P$ s: }2 Z+ G* P a5 b
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 7)
下載附件
保存到相冊
an1bh1cylh464024938734.png
2024-9-30 01:35 上傳
6 F, G1 E' E% x. J
| " Q2 G" C' l0 [% v3 i4 ~
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 10)
下載附件
保存到相冊
hktsuthux0d64024938834.png
2024-9-30 01:35 上傳
3 }, a4 I4 u! z9 D' b5 }* F | * d+ D/ h" a, B) l7 x2 m
) ^, k! F' D6 q+ I( x7 Z) p
% y; `% L6 {. a6 d
/ L$ F f/ ?: J0 R1 l) a關(guān)于我們:6 N2 h. f) f( z$ P. J2 _6 r
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
2 _, H* s8 x7 @% A3 b! ~0 i) J9 k* @0 f6 \+ B
http://www.latitudeda.com/
% W- y$ S5 G' J" a5 f9 Z7 v# ?+ D(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|