電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 250|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | AMD Instinct MI300X新一代加速器推動(dòng)AI和高性能計(jì)算

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級(jí)會(huì)員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-29 08:02:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言
9 D/ `( _4 D) r( R: B- X# H0 y: H本文旨在幫助讀者了解AMD Instinct MI300X加速器,這款加速器代表了人工智能(AI)和高性能計(jì)算(HPC)技術(shù)的進(jìn)步[1]。我們將探討MI300X的架構(gòu)、特性和性能,展示其如何滿足生成式AI和大型語(yǔ)言模型(LLMs)不斷增長(zhǎng)的需求。6 ~5 D# I' d. ~+ h' A

. j$ D; {2 @; }! `5 p' w# CAMD Instinct MI300X簡(jiǎn)介
. {2 l3 }, i5 B1 MAMD Instinct MI300X是AMD持續(xù)推進(jìn)HPC和AI計(jì)算能力的成果。在其前代產(chǎn)品的基礎(chǔ)上,MI300X專注于統(tǒng)一內(nèi)存、AI數(shù)據(jù)格式性能和節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)通信的改進(jìn)。
4 l2 ^+ r$ L" E5 p8 U$ e8 Z6 M- ^) F5 j* q) o
8 a  M$ c( v4 `4 V
圖1:AMD Instinct加速器的演進(jìn)歷程,展示了從MI100到MI300X的技術(shù)發(fā)展重點(diǎn)。
4 y$ n- m5 R7 p& ]2 [# w" m0 \
& b' O% X! _* a+ P/ i架構(gòu)概述- L/ u# g+ C# O+ s
MI300X的核心是AMD CDNA 3架構(gòu),采用多Chiplet設(shè)計(jì),包含1530億個(gè)晶體管,使用臺(tái)積電5nm和6nm FinFET工藝制造。% c! o1 A% r" O0 ~7 G% U

9 s1 M( a# u: T圖2:詳細(xì)展示了AMD Instinct MI300X多Chiplet加速器的結(jié)構(gòu),包括多個(gè)XCD(GPU Chiplet)、HBM3內(nèi)存和互連設(shè)計(jì)。
1 O3 w# Q' t5 c7 i: E3 E1 C1 t3 L
MI300X的主要特性包括:
/ f& [" \+ K1 t, l
  • 304個(gè)計(jì)算單元
  • 1,216個(gè)矩陣核心
  • 192GB HBM3內(nèi)存,帶寬達(dá)5.2 TB/s
  • 第四代Infinity Fabric,帶寬高達(dá)896 GB/s
    + p# B. V# e6 {9 H3 ]7 s5 u) M0 z: ?: G
    - w+ s7 ~% X9 Z% q
    MI300X的架構(gòu)針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化,特別是在矩陣運(yùn)算和低精度計(jì)算方面。+ d) t1 [% @' ^  {- U- h
    0 I5 W2 v, r4 J* u
    CDNA 3架構(gòu)改進(jìn)9 u' S- u+ f- @1 G2 r; Y
    CDNA 3架構(gòu)相比前代產(chǎn)品有顯著提升:
      r- t2 f" _/ v: z9 f; n& i
  • 每時(shí)鐘周期每計(jì)算單元的低精度矩陣運(yùn)算能力翻倍
  • 支持INT8、FP8、FP16和BF16格式的2:4結(jié)構(gòu)化稀疏性
  • 新增TF32和FP8數(shù)值格式支持
  • 支持各種浮點(diǎn)和整數(shù)運(yùn)算的并發(fā)執(zhí)行1 C+ B8 o! R, m" I& x. q3 j- o4 G

    5 O: h9 s4 j+ |* _1 ]
    3 J" z% s- _* z8 e) o+ d: n
    * m9 Z9 X1 i! Q. C3 J! W圖3:MI300X與MI250X計(jì)算能力的詳細(xì)對(duì)比,突顯各種數(shù)據(jù)格式的性能提升。
    7 P$ u& @7 f, H2 p/ ^7 b5 ^$ U
    ( N- G: b) B3 _

    - W1 ~5 m4 f* _- A. Y- o, |內(nèi)存系統(tǒng)
    ; h9 B' f3 F$ B3 Q* {; z  U. [MI300X的一個(gè)突出特點(diǎn)是其內(nèi)存系統(tǒng):3 ~* |5 @2 ?; S* @
  • 全球首個(gè)8堆棧HBM3內(nèi)存架構(gòu)
  • 每個(gè)加速器配備192GB HBM3內(nèi)存
  • 5.2 TB/s的內(nèi)存帶寬, X0 ~' i6 |5 \3 [" i" v( K
    : J5 l. \# e0 v: x2 ]/ N  _
    這種大容量?jī)?nèi)存使MI300X能夠處理比競(jìng)爭(zhēng)對(duì)手更大的AI模型。例如,單個(gè)MI300X平臺(tái)可以支持高達(dá)6800億參數(shù)的LLM推理任務(wù)。& u5 r4 y! S1 C9 P+ o4 W. o7 `
    6 x* t' y2 [  X! L9 r* h8 V
    圖4:AMD Instinct MI300X與NVIDIA H100內(nèi)存容量和帶寬的對(duì)比。
    # Q4 ]9 S$ I9 M  X$ x/ n& M/ O' f$ k: E' A  N4 S0 Z  I
    緩存層級(jí)和Infinity Cache5 m1 k, y6 m. w2 ^
    MI300X具有復(fù)雜的緩存層級(jí)結(jié)構(gòu):4 S8 @7 K( [0 T% c2 y  O
  • 每個(gè)計(jì)算單元32 KiB L1數(shù)據(jù)緩存
  • 每?jī)蓚(gè)計(jì)算單元共享64 KiB L1指令緩存
  • 每個(gè)XCD有4 MiB L2緩存
  • 256 MiB Infinity Cache
    / \1 V4 P1 ]" V& y+ r6 F! a" l" \
    ; s+ m7 Q/ {) [+ ^& {' ~

    ' V, A1 y: V- E( R1 h% w
    ( T- h7 `) z1 L& E0 E1 k圖5:MI300X的緩存和內(nèi)存層級(jí)結(jié)構(gòu)圖。
    9 s+ ~) T! B" a$ y: d6 s( S
    - o7 Q$ D/ ?  {Infinity Cache是一個(gè)亮點(diǎn)特性,提供256 MB緩存,峰值帶寬達(dá)14.7 TB/s,在帶寬放大、功耗降低和延遲改善方面帶來(lái)顯著益處。
      F4 i* z0 d; l8 K2 R( A
    - I3 i/ G% O0 _$ _, m7 S空間分區(qū)和虛擬化' S  H4 I; }  v  m! }6 j+ S
    MI300X支持靈活的空間分區(qū),允許將GPU分為多個(gè)分區(qū):' T# j9 B5 v/ N7 C* E
  • 可以分為與XCD數(shù)量相等的分區(qū)
  • 支持單根I/O虛擬化(SR-IOV),每個(gè)平臺(tái)最多64個(gè)虛擬功能(VF)
  • 支持動(dòng)態(tài)重新分區(qū)以優(yōu)化工作負(fù)載" Q5 i$ K& ?0 I8 z3 x
    : y0 F4 Q' l  B4 T$ W

    ; L& h0 X2 j; X6 I: t . _# t5 a. L5 T, z3 \
    圖6:展示了AMD Instinct MI300X GPU的多種空間分區(qū)配置,突顯其在不同工作負(fù)載和虛擬化場(chǎng)景下的靈活性。1 {' f2 T) k% x" K- H! _
    / O" j1 r( a6 [4 f5 N, ?
    AMD Instinct MI300X平臺(tái)
      q( q0 L. J3 q" Z5 o+ Y0 D& [MI300X設(shè)計(jì)為在平臺(tái)配置中工作,通常包括:8 [" I+ y1 b7 R, A6 x2 [
  • 8個(gè)AMD Instinct MI300X加速器
  • BF16/FP16性能約為10.4 PetaFLOPS
  • 總計(jì)1.5 TB HBM3內(nèi)存
  • Infinity Fabric帶寬約為896 GB/s
      E- D' l6 C; H1 I- O' S
    * a0 T) Q; X& O% @

    ' H) s. _& j0 R0 X* B4 y
    7 s7 `$ e1 E2 U* Q% A3 T/ k' S圖7:AMD Instinct MI300X平臺(tái)的概覽,展示其作為領(lǐng)先生成式AI平臺(tái)的關(guān)鍵特性。
      |/ z5 e" f# i. ~$ I) J# z, x6 K9 }4 U
    Infinity平臺(tái)和生態(tài)系統(tǒng)# _' Z' M% s3 N" f
    MI300X Infinity平臺(tái)通過(guò)AMD Infinity Fabric為8個(gè)OAM(開放加速器模塊)提供直接連接:
    . D/ ^0 `( B7 X! r3 f
  • 七個(gè)雙向鏈路,每個(gè)帶寬為128 GB/s
  • 每個(gè)OAM配備PCIe Gen 5 x16,用于服務(wù)器連接和I/O
  • 192GB HBM用于RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))
    ! z- V# d8 j1 f7 N/ ?
    * x0 O1 ?- k% Q9 U

    % _2 U! x/ t4 {4 s7 X # l# }& V$ Z& d5 C
    圖8:展示了MI300X Infinity平臺(tái)的結(jié)構(gòu),說(shuō)明了多個(gè)MI300X加速器之間的互連以及與主機(jī)服務(wù)器的連接方式。, C0 u1 x4 V/ E+ |5 W. `

    # b' ^& d. c# h/ f% H, H0 L7 j' m該平臺(tái)還符合行業(yè)標(biāo)準(zhǔn)并提供高級(jí)特性:6 Y) R. W) _: b0 n0 {( B9 T; B# [# Y
  • 符合UBB 2.0標(biāo)準(zhǔn),實(shí)現(xiàn)快速部署和無(wú)縫數(shù)據(jù)中心集成
  • 增強(qiáng)的安全特性,包括SPDM認(rèn)證
  • 全面的RAS(可靠性、可用性、可服務(wù)性)特性
  • 先進(jìn)的遙測(cè)和固件管理功能2 x) U; D- c8 y  q" U+ P* _

    ' k& u/ ?2 ?2 ?4 e! M. N軟件生態(tài)系統(tǒng); H+ p6 f) r6 A. B  X
    AMD為支持MI300X開發(fā)了軟件生態(tài)系統(tǒng):/ p$ b3 L) U- s6 ?' K  r* N  A$ W
  • ROCm(Radeon開放計(jì)算)平臺(tái)用于GPU計(jì)算
  • 針對(duì)AI和HPC工作負(fù)載優(yōu)化的庫(kù)
  • 支持流行的AI框架,如PyTorch和TensorFlow
  • 擴(kuò)展的開發(fā)者工具和運(yùn)行時(shí)環(huán)境. U0 D' ~- ^9 y6 n% k3 k

    $ i% v+ [, _5 H, e( n5 ^這個(gè)軟件棧確保開發(fā)者能在各種應(yīng)用中高效利用MI300X的能力。
    ; i2 B' {- G0 V9 Y) b1 W; W, s. D0 X5 T2 U& F9 i: w
    AI工作負(fù)載性能: g: ?9 {, A. i8 w7 y3 \
    MI300X在各種AI任務(wù)中展現(xiàn)了令人印象深刻的性能:
    ! {  s( m* i0 m8 p1 I
  • Meta Llama-3 70B模型的令牌生成吞吐量比NVIDIA H100高出1.3倍
  • Mistral-7B模型的吞吐量高出1.2倍
  • 在模型微調(diào)任務(wù)中表現(xiàn)出色
    1 }" g, L# P$ p0 B. G; W
    5 d$ G. t) ~0 Q( G

      @: \( B3 ?4 A% ]% a 5 z" u8 d/ x3 `! }7 Y2 r
    圖9:AMD Instinct MI300X與NVIDIA H100在Meta Llama-3 70B和Mistral-7B模型上的令牌生成吞吐量對(duì)比。" M9 F, ~/ ?8 }- \
    6 K, H9 q+ J( C3 n( q7 ^7 y
    結(jié)論: ^) C. h; {9 ]4 E. P+ s/ m  P- A+ ~
    AMD Instinct MI300X代表了AI和HPC工作負(fù)載加速器技術(shù)的進(jìn)步。其創(chuàng)新架構(gòu)、大容量?jī)?nèi)存和強(qiáng)大的計(jì)算能力使其成為高端AI加速器市場(chǎng)的有力競(jìng)爭(zhēng)者。隨著對(duì)更大、更復(fù)雜AI模型需求的不斷增長(zhǎng),MI300X高效處理這些工作負(fù)載的能力使其成為推動(dòng)AI研究和部署的理想選擇。
    7 J' f7 G+ L0 M5 _7 |
    4 p5 j# T0 [  ~憑借靈活的分區(qū)、先進(jìn)的內(nèi)存系統(tǒng)和強(qiáng)大的軟件生態(tài)系統(tǒng),MI300X完全有能力應(yīng)對(duì)從訓(xùn)練大型語(yǔ)言模型到加速推理任務(wù)的各種AI挑戰(zhàn)。隨著AMD持續(xù)完善和擴(kuò)展其AI產(chǎn)品線,MI300X彰顯了該公司在快速發(fā)展的人工智能和高性能計(jì)算領(lǐng)域推動(dòng)創(chuàng)新的承諾。& e/ B, N6 q( p& u( C6 B6 M% O+ w
    ; C4 {7 p( X$ p% u. N3 z
    參考文獻(xiàn)
      O4 b4 V- G& u- H8 |[1] Smith and V. Alla, "AMD Instinct MI300X Generative AI Accelerator and Platform Architecture," in Hot Chips 2024, Aug. 2024.7 R3 q5 [! c: k+ q! \# k
    . m, V9 o5 Y4 t4 v8 J( Q* W
    - END -
    % N1 E0 o8 |' W$ p) @5 s3 M: ^: I
    軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。& F. v0 w. @* U* p) l5 v
    點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)
    $ P- V  O; K% @: V6 k( f
    7 x; t& W/ r+ |歡迎轉(zhuǎn)載
    6 B% d7 R+ w4 y3 b6 L8 y- {) K( I# T' o) J; S3 i
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!5 }; x8 Y" V* C
    1 t% D# T" T; D, T% y

    8 s4 r: ^9 n7 q% j# e# W

    0 S. l! b1 R- |: V) @ , H) u5 y! \* Z, X2 [8 n

    4 V. e: v3 k' A8 g6 s3 q關(guān)注我們
    7 W$ d6 P- o5 V+ q
    6 B3 x: U7 c8 [

    4 W8 y' ?, k: `' R9 M- v' k& P; F
    8 ~+ {4 u. \& J4 t

    + k/ m1 z# V. B# T( R
    7 K1 N, S4 R4 B# K. W$ Q; b

    ; `: x2 d$ Z( c8 n7 i, p8 r4 [ . b# `$ U6 J! l6 t8 e: o; O
                          7 `- D& _$ {9 ]* ^5 L2 \
    % \$ M4 U# f# P, t' f4 c; u

    & ^# ]0 L* {( L$ V3 @0 X. j% G5 m; d! e' l) s# Q9 S4 Y0 U$ I
    關(guān)于我們:
    ! Y; \, G3 s% G; c: u& ]+ T& X2 \深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
    * h/ E' w0 H3 q# F3 [3 X
    $ B2 Z  Z' u2 ]http://www.latitudeda.com/0 N! I6 D' a' `" J) @! u5 {
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長(zhǎng)推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表