電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 690|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動(dòng)AI和高性能計(jì)算

[復(fù)制鏈接]

686

主題

686

帖子

5863

積分

四級會(huì)員

Rank: 4

積分
5863
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-29 08:02:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言
# W9 J- I0 P$ p) K6 }本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語言模型(LLMs)不斷增長的需求。
/ X, X6 _4 J  v  Y, P+ b
* l' h3 q! F. u2 C( Q; g: _AMD Instinct MI300X簡介
0 `4 }; }% m$ I: uAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。! w7 X$ Z( h) R

# ~& D4 |, N8 G& V. K - N3 I9 U! o! y, o: a* t) G
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。4 ~3 L7 i' \, }' r2 b) h7 C# s7 \

: d- i2 U( @6 s& Z1 J2 A架構(gòu)概述4 Z1 F8 _' h" v! ]; s0 b: `( M: G: t
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。
8 r5 G: H' v0 g5 z# }% x" ?2 r
) m+ X  \# K3 Q( w/ B圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
2 B9 d8 w9 z! Q5 t2 V1 ~
4 r" u. Y( R. Z5 rMI300X的主要特性包括:
* K1 }% ]% }+ _1 z/ u
  • 304個(gè)計(jì)算單元
  • 1,216個(gè)矩陣核心
  • 192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達(dá)896 GB/s
    + K: u: v7 A+ P5 K: X
    7 x' [1 H3 _9 l! Y% X
    MI300X的架構(gòu)針對AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。( A" q- N% B$ o4 G/ `7 ?

    3 M/ I: ]" e( i" ]+ |6 RCDNA 3架構(gòu)改進(jìn)- ]+ j4 E# n4 M( Y  O
    CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
    * w  n! k% G9 y9 N3 [
  • 每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行
    4 I6 B* g& U1 g/ N4 R: u# [$ l1 Y4 @
    : q0 @- ?/ V+ A6 S: g
    - `& w, W( p9 \  Z
    / e; s) u: s2 Q/ I
    圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對比,突顯各種數(shù)據(jù)格式的性能提升。3 n" x+ _' I, e& W/ m8 f
    3 k! G! x7 B- w: N3 w+ a5 {
    7 W6 t2 p- T! c" u0 F( L7 ]* N9 |
    內(nèi)存系統(tǒng)
    6 ]6 w" A8 I5 M2 N) \4 O% V3 O; y) yMI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):
    $ s, M  l$ ?& G* v/ ?* t0 s& [
  • 全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)
  • 每個(gè)加速器配備192GB HBM3內(nèi)存
  • 5.2 TB/s的內(nèi)存帶寬
    8 }% ~  p) C8 n; i8 _

    ' _& i/ C7 W4 T2 w3 r這種大容量內(nèi)存使MI300X能夠處理比競爭對手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。
    ' N1 F! J  F4 R6 m6 s , F3 U1 V. C2 k3 U, U5 Y7 b
    圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對比。( q. B. B# c  }8 o3 L

    1 L4 [# [4 y) l, f. F* k緩存層級和Infinity Cache$ {* H' a! {' t9 E. {
    MI300X具有復(fù)雜的緩存層級結(jié)構(gòu):+ h5 z# V1 e# @7 I: C: L! ^" l
  • 每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存
  • 每兩個(gè)計(jì)算單元共享64 KiB L1指令緩存
  • 每個(gè)XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache
    5 C2 U1 H3 ^8 d9 e6 s

    $ }5 H6 P8 M1 {! n: |0 J3 d- @, D9 r$ l

    5 @. t1 A# e) H圖5:MI300X的緩存和內(nèi)存層級結(jié)構(gòu)圖。
    ( C" M: @: \* a* f7 k# e0 C( `( D7 N' F* J- r( _, X- ~4 o8 M
    Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來顯著益處。
    4 C0 X8 G  L5 h1 |* a5 D" J  e& y
    空間分區(qū)和虛擬化0 R5 z- R2 C7 g
    MI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):9 _9 c$ r$ X& x% p! |' ~1 x# e
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)
  • 支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載
    + l0 q5 n; \9 `

    1 f# G; {  R" h1 \) s8 l
    $ ]) W+ R0 \1 ~# O
    , x! i. W: a, p; I$ v圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場景下的靈活性。# a3 r9 }8 `; o# i5 t6 ^( ?$ Y
    2 d+ r, m7 ^* K2 M' \1 Z7 J
    AMD Instinct MI300X平臺(tái)' H$ @4 Q% V1 L0 e( {+ C
    MI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:8 S; X3 _/ o& J( p+ \% a
  • 8個(gè)AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計(jì)1.5 TB HBM3內(nèi)存
  • Infinity Fabric帶寬約為896 GB/s
    , Y0 f& @5 E! v/ d4 Q# M5 k

    . f: `' O4 g, v$ u% H2 ~# l
    ) C4 a  d6 Z# ^' y  J
    * {/ p* k1 V0 R+ F9 U8 L圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。& c7 `  [  X- J; o4 r4 ]
    1 G: k/ q8 N6 w# _+ x# e
    Infinity平臺(tái)和生態(tài)系統(tǒng)" l* W2 _" d4 S8 z6 l2 q
    MI300X Infinity平臺(tái)通過AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:' X2 Q0 j/ d1 d7 X7 h
  • 七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s
  • 每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O
  • 192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問)
    ) W; m8 W8 j' E1 K: _: c, P
    + d- b& L  D3 s: x* C

    2 w2 V/ `% I8 `  w2 p4 T3 _
    8 S5 f' G5 `" u! r8 @圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。
    # Y9 e8 s" q3 u* A* X
    5 Q8 [* U3 z# c6 m* i該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級特性:
    % ]7 D0 B9 d0 g3 l+ A0 m& ~
  • 符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無縫數(shù)據(jù)中心集成
  • 增強(qiáng)的安全特性,包括SPDM認(rèn)證
  • 全面的RAS(可靠性、可用性、可服務(wù)性)特性
  • 先進(jìn)的遙測和固件管理功能
    $ b  K  d  h) H/ y3 \: t

    * q; ]8 n* t" z. m1 z) Y6 N軟件生態(tài)系統(tǒng); ~8 L7 ?8 ~9 e5 Z( H
    AMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):0 U; u# U! T9 k+ B$ p  I! E3 ^3 Z" `
  • ROCm(Radeon開放計(jì)算)平臺(tái)用于GPU計(jì)算
  • 針對AI和HPC工作負(fù)載優(yōu)化的庫
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境
    & E3 q9 r- o" b, F0 l; m

    9 Y8 N( x, T5 O" E這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
    # P+ p- H1 i' b( y  H
    0 ]8 `9 g7 o/ I8 B, o: g7 ?AI工作負(fù)載性能
    : [+ L7 r" R6 uMI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:1 g+ V  W, S% G% h2 f& m
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調(diào)任務(wù)中表現(xiàn)出色, R* v; x' v$ u7 I
    & P8 T9 |; ]. Y6 ^6 \. [% q9 W

    6 M6 k, I' ]9 }/ j# {& }! n% K
      J2 B& \3 _, h: @圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對比。
    9 T% c9 K( E" ]6 x# P6 g
    7 J+ O+ x9 O+ _' H; g0 \8 Z, q結(jié)論
    # T' W- j  Z% c4 ?# P7 l; e% `( _; SAMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量內(nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場的有力競爭者。隨著對更大、更復(fù)雜AI模型需求的不斷增長,MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。4 L- q% X! a4 W5 y) r0 l# _

    * c; N5 y6 y: H( b7 I) D憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對從訓(xùn)練大型語言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。8 V, b2 G/ O& D7 c1 I- {& }: U
    + g  \6 u+ V, O" Q; D
    參考文獻(xiàn)
    % {4 u6 h8 B/ P[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.
    ! l' B; J  p7 t% Z* b: e
    ; ?0 [0 H& S3 f4 F" F9 [2 O( w- END -
    % j" c) v* {7 n7 x
    ( V2 K, T/ a5 @6 w軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    * J) ?4 |. G+ o4 a) a$ i點(diǎn)擊左下角"閱讀原文"馬上申請
    6 U2 z, N$ s5 U6 |& w& x8 o+ M7 W' I" B/ Y$ G% ?* E
    歡迎轉(zhuǎn)載
    & o6 R  v3 d+ f. c. e7 H9 S) d6 z' Y1 I/ D' L) P
    轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!1 U, B3 H( Z! f1 A

    & Y. N  k" X& r: p& b0 ^5 e( C- W1 U2 D. p) i0 q
    4 K8 `/ G" _& F- u0 Y

    5 e, g0 ~% Z1 @. o: {
    ; w# x4 ^) s8 R! @. z' g關(guān)注我們% c4 v- p$ l8 F. k) M
    8 J. E, w( p' N* N0 h* ^' u
    ' w& }* w7 x( l7 r& D$ ?

    % S+ z$ w$ T  f- f0 x! i! }
    / R5 P$ s: }2 Z+ G* P  a5 b
    6 F, G1 E' E% x. J
    " Q2 G" C' l0 [% v3 i4 ~

    3 }, a4 I4 u! z9 D' b5 }* F
                          * d+ D/ h" a, B) l7 x2 m
    ) ^, k! F' D6 q+ I( x7 Z) p

    % y; `% L6 {. a6 d
    / L$ F  f/ ?: J0 R1 l) a關(guān)于我們:6 N2 h. f) f( z$ P. J2 _6 r
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    2 _, H* s8 x7 @% A3 b! ~0 i) J9 k* @0 f6 \+ B
    http://www.latitudeda.com/
    % W- y$ S5 G' J" a5 f9 Z7 v# ?+ D(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表