|
引言
( _9 t' L. C9 Y7 N1 y) L' j本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語(yǔ)言模型(LLMs)不斷增長(zhǎng)的需求。
( W1 E$ t/ @& _
% F6 i7 h& t7 [- r& V$ GAMD Instinct MI300X簡(jiǎn)介9 z3 O0 X X8 [
AMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。4 ?. a8 u: I2 v( G( ~; x! p" Q
. K* w1 w0 _. l0 n6 h
q2iowyshnqu64024937633.png (298.57 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
q2iowyshnqu64024937633.png
2024-9-30 01:35 上傳
. B2 T* z5 \6 h' V圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。* N) ]: i: y0 D% ~
! ?! o( x* A6 Q- M+ F
架構(gòu)概述3 I, I! \, K) H" l% o
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。" q% f+ X6 t/ B* F3 S
yh3125r1hyw64024937733.png (819.88 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
yh3125r1hyw64024937733.png
2024-9-30 01:35 上傳
4 i, L9 N B2 H5 \6 T
圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。9 N9 H) m% O: e9 T" t
- _; J9 l& R) c0 [MI300X的主要特性包括:
' ~- ~( k7 B! d/ c9 u: d/ W304個(gè)計(jì)算單元1,216個(gè)矩陣核心192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s第四代Infinity Fabric,帶寬高達(dá)896 GB/s+ H+ m1 s, D) S. X: \
# a" S* A" R5 y: u1 o* pMI300X的架構(gòu)針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。
+ n4 V2 e. K( P
. I: G1 ~! T6 A3 \CDNA 3架構(gòu)改進(jìn)/ P$ Q, p" ?4 A$ K1 D! M
CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
3 G7 M3 A6 m- u每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性新增TF32和FP8數(shù)值格式支持支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行
' Y7 B2 C# |. w
. }" t; P6 g! r$ A4 \3 A, v5 ~1 p; ` L3 h/ R& {
ogek23y05in64024937833.png (67.16 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
ogek23y05in64024937833.png
2024-9-30 01:35 上傳
+ d1 a. b$ |' l8 B
圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對(duì)比,突顯各種數(shù)據(jù)格式的性能提升。: f2 m1 r d3 F2 ~4 `" Q( N
9 h1 C, h* C: w
# g' ], X& S0 ]內(nèi)存系統(tǒng)
" m3 C k, Q/ o+ f+ cMI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):
( E5 z% g2 Y# {) d( ~$ Q全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)每個(gè)加速器配備192GB HBM3內(nèi)存5.2 TB/s的內(nèi)存帶寬
" _) ?$ P& b2 a6 O( k$ K: c
1 l# E& H2 q! c A( p2 {2 W' A這種大容量?jī)?nèi)存使MI300X能夠處理比競(jìng)爭(zhēng)對(duì)手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。( [) t1 D7 p% O8 e6 r- m
abjx3vckule64024937933.png (71.21 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
abjx3vckule64024937933.png
2024-9-30 01:35 上傳
: c! \5 f% I2 \2 e. Q圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對(duì)比。
4 o7 l2 E* u! ~: P. C; G# t. N* V# n. l$ A* H3 {! [) w4 i
緩存層級(jí)和Infinity Cache
) }; k2 R" q& B! b* G* LMI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu):# \6 v- v1 ^0 S3 G. c* ?' \# t0 p
每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存每?jī)蓚(gè)計(jì)算單元共享64 KiB L1指令緩存每個(gè)XCD有4 MiB L2緩存256 MiB Infinity Cache
2 ]4 l; [4 |; N3 K$ u# m1 `! {! [0 J* R- d! X& j! c6 H1 N
- ]- P# O- R6 D" y
4exaqyeliv064024938033.png (308.15 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
4exaqyeliv064024938033.png
2024-9-30 01:35 上傳
# B/ c! l; |) u圖5:MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。
0 E$ I0 |! J% y7 r1 Q* d, a$ J- L9 e5 y4 v# j: H0 }" h
Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
$ l- U- A* \# X. ~* i# O' f+ z3 q1 {+ I
空間分區(qū)和虛擬化# H, \9 s' m6 W- I8 z
MI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):
( Z* y) ~! H4 X6 P2 o, t可以分為與XCD數(shù)量相等的分區(qū)支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
- |& [7 K: @0 Z- Q2 T7 L5 D, l0 h# R7 n( i" h# Q) ~1 `
" F: L4 I! [* @
ggm0g4zyhjz64024938133.png (455.73 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
ggm0g4zyhjz64024938133.png
2024-9-30 01:35 上傳
6 H' |1 U* ~+ t- v% `圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場(chǎng)景下的靈活性。 L* ~, R" F" F0 a
; N8 [$ Q. z& G: y
AMD Instinct MI300X平臺(tái)% R' `2 h5 D0 j ^
MI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:
6 B T2 r& [6 t9 {+ P. c8個(gè)AMD Instinct MI300X加速器BF16/FP16性能約為10.4 PetaFLOPS總計(jì)1.5 TB HBM3內(nèi)存Infinity Fabric帶寬約為896 GB/s* P, x2 l- m g' k1 `
( A3 o. x8 r% h4 D" f5 Q7 c# h- a* [
& z* S- T/ S9 O4 E- B1 I$ o% ^' P
fxyxxvy0tm164024938233.png (281.38 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
fxyxxvy0tm164024938233.png
2024-9-30 01:35 上傳
; Q: }& P1 b& d圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。
: N6 L; b( ^. n! [2 {. q
) _- N# |. m1 V0 {4 a3 mInfinity平臺(tái)和生態(tài)系統(tǒng) D; f/ @" r" g& D
MI300X Infinity平臺(tái)通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:
4 c9 L: _, I8 c七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
, ^+ ~2 g! \% W4 ]# j0 Y1 r
$ q& n- v0 l& O0 R6 ?6 [- |6 V
! K3 C, l4 r* ^- I& z& x
bfmnlzuyiwz64024938334.png (176.31 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
bfmnlzuyiwz64024938334.png
2024-9-30 01:35 上傳
, t3 }# |3 D" {圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。. @, I: a* o$ W6 B
* f- d* J' W( Y9 L2 U4 ?該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性:. [* {4 p1 G8 e9 a- n" W9 Z
符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成增強(qiáng)的安全特性,包括SPDM認(rèn)證全面的RAS(可靠性、可用性、可服務(wù)性)特性先進(jìn)的遙測(cè)和固件管理功能
& E% a% i5 q! k: r- H( ^# _
4 U2 d' g2 D7 \% ^+ L' I8 J+ y% E軟件生態(tài)系統(tǒng)
0 I. E. E5 b2 D1 I# c# IAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):# @& ]( i8 p" } {. r
ROCm(Radeon開放計(jì)算)平臺(tái)用于GPU計(jì)算針對(duì)AI和HPC工作負(fù)載優(yōu)化的庫(kù)支持流行的AI框架,如PyTorch和TensorFlow擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
4 t0 T' p" I" K% j. V' |; q7 U- r, |! P
這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。- M6 B4 j. d: v
9 s6 y/ H/ l3 ]
AI工作負(fù)載性能
/ p. l5 B+ W* t4 d% uMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:- h- y: j" m6 n2 W( n9 l
Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍Mistral-7B模型的吞吐量高出1.2倍在模型微調(diào)任務(wù)中表現(xiàn)出色6 y9 H' ]6 U: {4 [& V/ N
* k3 k1 [% F) P: m3 ^
; e. g2 d o) y+ m+ e
qdmdth2s0oc64024938434.png (91.95 KB, 下載次數(shù): 11)
下載附件
保存到相冊(cè)
qdmdth2s0oc64024938434.png
2024-9-30 01:35 上傳
+ Y& B4 g3 C% J( S( H# I圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對(duì)比。' D6 I, c' m6 J
- o" Y9 L& b: A
結(jié)論
# K3 m# J0 ] g3 |AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量?jī)?nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場(chǎng)的有力競(jìng)爭(zhēng)者。隨著對(duì)更大、更復(fù)雜AI模型需求的不斷增長(zhǎng),MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。2 }. N* m9 I2 F( B5 A" _
/ l3 @# ~: |4 V4 A8 \- ~1 t- M憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對(duì)從訓(xùn)練大型語(yǔ)言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。! _& J |6 x* J: z: b; E
* k! Q: F: W5 c o U參考文獻(xiàn)5 r" w" Q2 N) E& ~# j1 a
[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.5 n) u# T' ]4 f% c% S
7 E5 D4 R- H. M- END -
! p5 K1 A. ?; |" X" U) [" N4 Q. H3 |% j
軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。0 c( t+ }0 m; s& F
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng); }" ^$ t9 I5 e' @4 S
$ }) o7 i5 n: D. H" B# R7 ~" G歡迎轉(zhuǎn)載
& a) W+ g+ W4 h. p9 j
/ \2 \# b# D# @5 O0 _& }3 U9 ^轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
7 ~4 F$ e7 C$ n0 f1 p( H8 o
2 G1 g' }% k) P2 n3 E0 Q: Q
# @9 a+ }3 e% ~/ x0 t2 S$ J6 a: Y: D& q! ~1 ^+ _/ b; F0 [
whraycy4pwq64024938534.gif (16.04 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
whraycy4pwq64024938534.gif
2024-9-30 01:35 上傳
8 f- T: M k+ H! L( b
7 Q6 E: P7 F) f! P' R
關(guān)注我們
7 q/ \+ s; I* U! ~: g0 m( Z
. v- s0 Y4 I t F2 |' \. {; ?& R' Z* k1 G0 G: z+ _2 z8 M6 I* p0 H" [
k5tkk1oi1r364024938634.png (31.33 KB, 下載次數(shù): 9)
下載附件
保存到相冊(cè)
k5tkk1oi1r364024938634.png
2024-9-30 01:35 上傳
8 d. H$ E5 H3 X
|
6 W! d/ u( s' ^9 i4 a2 {
an1bh1cylh464024938734.png (82.79 KB, 下載次數(shù): 8)
下載附件
保存到相冊(cè)
an1bh1cylh464024938734.png
2024-9-30 01:35 上傳
6 P* ^, |3 i) v |
. m% k) p0 e5 O- Z9 ]2 t7 h. I, a
hktsuthux0d64024938834.png (21.52 KB, 下載次數(shù): 10)
下載附件
保存到相冊(cè)
hktsuthux0d64024938834.png
2024-9-30 01:35 上傳
- k/ n% R$ w6 c. |
| ! Q6 O) j+ x$ ` e4 t
* s- i3 I7 ^- t" G0 _" d5 Z1 R# y; d; V# s
, a( w3 G" `1 o' j a7 Z關(guān)于我們:5 e, }- Y/ k! t- C
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。1 P: [: Q6 r# A+ f; V5 I5 R
r. r! C r" l( chttp://www.latitudeda.com/* ~* D1 u2 v/ T3 K& v5 i) H
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|