電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 247|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動AI和高性能計算

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級會員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-29 08:02:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序?yàn)g覽 |閱讀模式
引言  Y0 [- G! ^7 c9 D* l
本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
, `& H  _* }% o, P* s
" s9 S# a$ R5 ]5 J& {0 e3 }AMD Instinct MI300X簡介
0 R* B; e* J% E6 T6 GAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。. N7 Y# ^* ]' w! h$ m% D
7 B- w& P9 M) }8 p3 z8 Z/ R( w

! X6 w9 C) J& Q9 {( @# {; _" d圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
5 I$ c6 k9 w6 ~% ^) s7 f6 u, d( |2 S/ {: f
架構(gòu)概述( }7 F1 S) R1 ^& q
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計,包含1530億個晶體管,使用臺積電5nm和6nm FinFET工藝制造。8 D% T8 _& u7 {

. K& \4 ^  x9 `圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計。
4 E4 L: a8 ?$ J# O8 }: B- {! y
  o! s0 {; Y% L5 q+ ]MI300X的主要特性包括:
$ I) W! v# n5 _6 r9 k1 p
  • 304個計算單元
  • 1,216個矩陣核心
  • 192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達(dá)896 GB/s, R8 s, }: P0 ~, \6 Z, ?) M
    # Q4 w7 J2 Q4 W
    MI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計算方面。
    , X9 e- h& m' C. Z7 N
    + u8 c* ?: T; Q9 Z: BCDNA 3架構(gòu)改進(jìn)
    8 m, n6 j& Z- Y; J) |* w: RCDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:( Q$ V% G' V; [& Z/ W- {- `
  • 每時鐘周期每計算單元的低精度矩陣運(yùn)算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行
    6 D, p  u. }9 g/ L4 _$ i

    , }7 I" b2 C: y1 }, b$ h4 r! B; C/ [9 r  \
    9 }! M8 F/ J! [: ]' [: v- G
    圖3:MI300X與MI250X計算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。" Z, Y8 Z4 |/ T, h9 V

    * Q3 O  T5 }1 j1 K
    - }3 U+ i8 z- x, Q
    內(nèi)存系統(tǒng)% a; G5 V: V4 J0 t; U0 p
    MI300X的一個突出特點(diǎn)是其內(nèi)存系統(tǒng):* _6 s+ o. e7 h
  • 全球首個8堆棧HBM3內(nèi)存架構(gòu)
  • 每個加速器配備192GB HBM3內(nèi)存
  • 5.2 TB/s的內(nèi)存帶寬
      y! M7 X7 Z# R6 ], M& Y  \

      j; T2 y8 m5 V( f0 \, t這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個MI300X平臺可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
    : N/ ]0 `, o. h6 ]1 _
    ; c& f4 X4 s2 u: D圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。( [4 q/ U2 }5 ~  m8 I! b' @

    & s" W$ u; M0 X, x" a( \緩存層級和Infinity Cache  b+ D1 j' E1 b: p8 }
    MI300X具有復(fù)雜的緩存層級結(jié)構(gòu):  L/ m2 t" }" D$ c
  • 每個計算單元32 KiB L1數(shù)據(jù)緩存
  • 每兩個計算單元共享64 KiB L1指令緩存
  • 每個XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache$ {0 R0 i4 j' f' @1 {/ A( P* j4 B0 X# J
    ) F5 N, ~" n9 r) a, r" _& r& ?! I
    1 }3 `2 h- C% I; ^' h6 V3 [

    / Y  s, ~" K9 G3 ?, }- u$ H圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
    , \7 V: b- a& J) L* b0 u2 `) f: B0 x
    Infinity Cache是一個亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。- {1 R( D- t3 e, Z9 Q: C; \/ N
    ! }- u2 z+ r5 j! ?; [2 ^( G
    空間分區(qū)和虛擬化0 h) m$ N0 x4 L8 H- r* U
    MI300X支持靈活的空間分區(qū),允許將GPU分為多個分區(qū):& O8 D# O% m$ r9 T! T. W
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個平臺最多64個虛擬功能(VF)
  • 支持動態(tài)重新分區(qū)以優(yōu)化工作負(fù)載1 u! f0 z. P; n
    3 x' B  X. _& n; S
    # d4 u9 w7 z) n2 r  v
    : i8 }2 s5 w1 D8 G: [& s& z; l+ s
    圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。
    , W4 Q( ?/ M- Z) b3 {& `3 j
    # b- ?: y4 |0 Q* X3 v8 F8 }8 }AMD Instinct MI300X平臺
    4 l! j; n: c0 d* E- k3 c" M' iMI300X設(shè)計為在平臺配置中工作,通常包括:- g5 Y  |* Z, Q- h' \1 B
  • 8個AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計1.5 TB HBM3內(nèi)存
  • Infinity Fabric帶寬約為896 GB/s/ R  N6 _3 O9 \
    + V$ j- N7 i2 r  S. S  C2 Q
    7 s+ b3 N: F6 G. V
    " v; d8 k9 j$ Z6 g  q; P: y
    圖7:AMD Instinct MI300X平臺的概覽,展示其作為領(lǐng)先生成式AI平臺的關(guān)鍵特性。- U8 l9 W* o: P; T' @
      s# c5 t/ u8 R: U/ B
    Infinity平臺和生態(tài)系統(tǒng)
    , w2 F6 b" s& LMI300X Infinity平臺通過AMD Infinity Fabric為8個OAM(開放加速器模塊)提供直接連接:
    ) B% }% V0 `" w0 `
  • 七個雙向鏈路,每個帶寬為128 GB/s
  • 每個OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O
  • 192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
    ' E' t2 p& |* i( F2 q% _% |2 L/ b

    & W( K2 Z: D0 ^( z2 R# b
    5 S3 n" |/ W+ B- X( ]
    6 z( S) {& [/ u- V圖8:展示了MI300X Infinity平臺的結(jié)構(gòu),說明了多個MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。
    6 [, d  W6 I# E  q+ [2 e9 L* Y- x& k  q. L: H5 b3 a* F
    該平臺還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:
    % _0 }4 T. a' t3 g
  • 符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成
  • 增強(qiáng)的安全特性,包括SPDM認(rèn)證
  • 全面的RAS(可靠性、可用性、可服務(wù)性)特性
  • 先進(jìn)的遙測和固件管理功能; c1 |, C, N7 c$ H9 Q$ ]& n

    " s6 a% [& O, J4 s" N; F: c2 e2 Q軟件生態(tài)系統(tǒng)
    : e1 o0 J4 \9 y; T. F' v2 KAMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):
    : p+ h1 r6 c+ q1 g. s% F) N
  • ROCm(Radeon開放計算)平臺用于GPU計算
  • 針對AI和HPC工作負(fù)載優(yōu)化的庫
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴(kuò)展的開發(fā)者工具和運(yùn)行時環(huán)境
    0 R  Z7 O* F. ]/ n  `; ~
    : g" \5 b( j  ]! \7 |$ K4 O! T
    這個軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
    / q! n7 h! P, G. e, O
    3 T9 c5 }% N+ s* y% E! yAI工作負(fù)載性能
    ( U- _6 T( g0 ^5 o# DMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
    & r7 p& h2 g, y  l! a
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調(diào)任務(wù)中表現(xiàn)出色; E0 i) i+ k' m1 W/ Y8 r

    & d7 `3 `2 W! D2 B
    + ^) ~9 {% e* v$ @" m% P0 I2 P ( Y" v1 V, _. l" }5 Y5 r# v
    圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。
    3 P, B9 S. m7 q" n7 P  M/ a
    6 Z% i) n. |4 p) y! m5 n, f- n/ b結(jié)論
    9 b  \6 C4 w. mAMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動AI研究和部署的理想選擇。1 x; E* B5 J9 c/ W

    % Z: L! S" j+ e. g& d) F4 d憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計算領(lǐng)域推動創(chuàng)新的承諾。0 B+ M% F; X/ _/ c
    $ e3 L/ d% n% L5 S; `
    參考文獻(xiàn)
    3 S) m) P/ m  Q2 |[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
    1 h, Q/ v/ \; T& {: q+ r% V
    9 t' r' j' u! l, U. F  ~& s9 B! F- END -
    5 u! I5 |6 a$ Q0 @8 M4 [! E
    ) g6 j& _8 }3 w# W0 o9 w0 j軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。6 a3 U, J- P: J5 U, A
    點(diǎn)擊左下角"閱讀原文"馬上申請
    , Z/ S: @$ V/ g7 s2 S$ X1 n4 n& y; \6 ]" S6 W0 r
    歡迎轉(zhuǎn)載
    8 I) c  P% D  ]
    ; h2 }* u8 z2 o7 O) P轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!& |" ~; {4 v) p- W# m

    7 ^& ^0 R4 ?, Q" e( {" @
    ' R; b( L( Z4 H2 M
    ) X  f; b3 r; d+ F8 U- n
    9 P8 F+ e3 R% s! Q& n) ~% b
    4 f5 r+ Y/ n5 U9 E
    關(guān)注我們3 {/ t( Q& F7 i5 y% t* b
    5 W% ~, i" q2 n( I- U& y9 W
    % E0 k/ D% W$ D. Q* r+ `$ t0 H
    5 U* Z- t6 D. D6 e8 X" m
    , x) X2 X, A/ z' i2 t0 _

    ( X% T; T& ~! Q" x6 j! B
    0 ^) n! M2 \+ R+ h$ ~" l: `( X
    - b5 y: G. k- [3 u9 F/ h( W( v
                          $ W! ^! W0 S. A4 X' I" }

    5 `8 `: u" v$ m, h% s0 W: N
    3 @' {- _# n" u' `6 K

    ) Y% q! a3 T4 d8 l& f關(guān)于我們:
    6 T# x, g2 C5 i# k深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。4 D* b0 C/ s; M. x
    & G; u. ~2 ]* p- Y; K7 s
    http://www.latitudeda.com/
    ( s* s; @8 f2 H- K( u0 ?9 V( L3 W(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表