電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 13|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 微軟首代定制AI加速器Maia 100

[復(fù)制鏈接]

425

主題

425

帖子

2924

積分

三級(jí)會(huì)員

Rank: 3Rank: 3

積分
2924
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:01 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言" d1 l# W* e. l* ]$ ]6 C6 y
本文介紹微軟推出的首代定制AI加速器Maia 100。我們將探討Maia 100的關(guān)鍵特性、架構(gòu)設(shè)計(jì)以及軟件生態(tài)系統(tǒng),揭示其如何在Azure平臺(tái)上革新大規(guī)模AI工作負(fù)載處理[1]。
8 S% l6 S: l& X, f% h. p8 N
  Z: T/ e& @4 b9 IMaia 100簡(jiǎn)介# f) G9 P! c, V1 ^5 L
Maia 100專為Azure平臺(tái)設(shè)計(jì),旨在運(yùn)行生產(chǎn)級(jí)OpenAI模型。這款加速器采用垂直整合方法,優(yōu)化性能并降低AI計(jì)算成本。Maia 100基于軟硬件協(xié)同設(shè)計(jì)原則,不僅解鎖新功能,還提高了能源效率。
- d: |( T9 D# f# Q' l% I0 N* [
9 @3 S  E( `5 S% N$ z2 }圖1展示了Maia 100芯片的主要規(guī)格,包括尺寸、封裝技術(shù)、內(nèi)存帶寬和計(jì)算能力。
" K; b! _7 d! n6 M
6 o: X/ }% u9 a: A0 n0 uMaia 100芯片規(guī)格如下:
+ o+ C' {$ U* {# i( T
  • 芯片尺寸:采用臺(tái)積電5nm工藝,約820平方毫米
    # ]# W, @  H+ i3 x
    , ]% A$ U1 {& d) {$ w

    $ _+ \0 s: P0 Z9 j$ t; C
  • HBM帶寬/容量:1.8TB/s,64GB HBM2E
    - t8 W; t; u. c- D4 w6 R! {- b
    , _* R% w. j. G: v# m
  • 峰值密集張量性能:
    3 z, g5 r; T: ^! W1 j
  • 6位運(yùn)算:3 POPS
  • 9位運(yùn)算:1.5 POPS
  • BF16運(yùn)算:0.8 POPS! i/ v3 e( D6 [  b
    , L7 s1 n5 R, R5 q" {+ Q

    ) |) u: P% t% F# a6 }
  • 后端網(wǎng)絡(luò)帶寬:600GB/s(12x400GbE)9 |1 Y  ]" r' P; d; _1 H6 N# S

    - J3 i& l( w' T- A& R9 R

    # W7 k' J3 D% S2 H( Z& X2 h2 |+ d
  • 主機(jī)帶寬:32GB/s PCIe Gen5 x8# c. q% K# P  q! E
    - D: Y; p- R. ^1 w3 n
    0 [: {. |9 B7 E* h2 P
  • 設(shè)計(jì)TDP:700W(供電TDP:500W)
    , h" d& w2 e3 U* k# i
    2 t3 g) R2 }) e/ \7 S6 D( Y
    架構(gòu)深度解析
    * j  R$ w7 X& u- Q- c5 fMaia 100 SoC(片上系統(tǒng))采用針對(duì)機(jī)器學(xué)習(xí)工作負(fù)載優(yōu)化的分塊架構(gòu)。* a& U, b! T0 q2 N
    & V. z$ e' A4 d: u
    圖2展示了Maia 100的內(nèi)部架構(gòu),顯示其分塊結(jié)構(gòu)、互連以及各種組件,如張量單元和向量處理器。
    ! d) J4 \* d- R5 F' w7 h+ t; }, O1 m
    主要架構(gòu)特性包括:
    " }4 j6 J/ W" d) v: g' P
  • 分塊結(jié)構(gòu):每個(gè)SoC包含16個(gè)集群,每個(gè)集群4個(gè)塊
  • 高帶寬數(shù)據(jù)網(wǎng)格片上網(wǎng)絡(luò)(NoC)
  • HBM2E內(nèi)存接口
  • PAM4 112G SerDes和PCIe接口5 M/ B) X+ x3 K8 i' S3 V8 W
    ( u2 N) O# S6 z
    每個(gè)塊包含:
    / d  r8 U) q, j+ r% c
  • 張量單元(TTU):支持各種數(shù)據(jù)類型的高速處理
  • 向量處理器(TVP):為ML操作定制的ISA
  • 塊數(shù)據(jù)移動(dòng)引擎(TDMA)
  • 塊控制處理器(TCP)- j( d3 ]2 ?& w' D

    ' h5 i; a. H! s' ?Maia 100的ML專用架構(gòu)旨在實(shí)現(xiàn)卓越的性能功耗比。通過以下方式解決數(shù)據(jù)移動(dòng)瓶頸:
    ( D0 b% Z8 y+ i+ ]% d/ s
  • 數(shù)據(jù)壓縮和窄數(shù)據(jù)類型支持(4位、6位、9位)
  • 大容量L1/L2暫存器內(nèi)存
  • 為ML工作負(fù)載優(yōu)化的網(wǎng)格狀NoC拓?fù)?font class="jammer">- Z8 v+ t, w9 ~7 T& M6 o

    & p  d) y7 G' ^互連和網(wǎng)絡(luò)能力
    , h; ~; q1 g# `Maia 100支持基于以太網(wǎng)的后端網(wǎng)絡(luò),內(nèi)置加密功能保護(hù)用戶數(shù)據(jù)。
    # h, v! V0 g" U" k% m# B; [( w/ F # s& L) g; J- p& y$ V
    圖3描述了Maia 100的網(wǎng)絡(luò)拓?fù),展示高帶寬以太網(wǎng)鏈路和統(tǒng)一網(wǎng)絡(luò)架構(gòu)。
    + _2 G2 \) n0 A' }, O
    * |( ^/ K  u( T, H& p' d主要網(wǎng)絡(luò)特性:  `( [; B. p" S% ]& Q9 R6 L( Q. c
  • 高帶寬以太網(wǎng)鏈路:
    . D$ l# ^6 K5 w6 J
  • 全收集/分散-歸約速度達(dá)4800Gbps
  • 任意對(duì)任意通信速度達(dá)1200Gbps
  • 定制RoCE類協(xié)議,提高可靠性和負(fù)載均衡
  • 支持AES-GCM加密
  • 統(tǒng)一網(wǎng)絡(luò)支持橫向擴(kuò)展和縱向擴(kuò)展配置
    - Y" }" `3 ]# g% L; n
    3 F! c/ p4 e+ [9 f$ {
    Maia SDK和軟件生態(tài)系統(tǒng)# O% u& o- u/ [. C
    為充分發(fā)揮Maia 100的潛力,微軟開發(fā)了全面的軟件開發(fā)套件(SDK)和生態(tài)系統(tǒng)。
      ~6 i7 |2 w4 ~  n! w" [( M8 |
    * J% P- \- V; p圖4展示了Maia SDK架構(gòu),顯示從用戶級(jí)接口到硬件抽象層的各個(gè)層次。* m( J) u& t$ \; N5 D, s
    3 a' i/ [& T( O  Y, L. D6 ?
    Maia SDK包括:
  • 框架集成(如PyTorch)
  • 開發(fā)者工具(調(diào)試器、性能分析器、可視化工具、模型量化和驗(yàn)證工具)
  • Maia編譯器(Triton用于靈活性和可移植性,Maia API用于最高性能)
  • Maia內(nèi)核庫(kù)(類似cuBLAS)
  • Maia集合通信庫(kù)(類似NCCL)
  • 用戶內(nèi)核(編譯后)
  • Maia主機(jī)/設(shè)備運(yùn)行時(shí)
  • Maia運(yùn)行時(shí)庫(kù)(HAL); W% K7 \6 a! I# V% x- n; T8 J/ c
    [/ol]6 j8 J( g- n2 o  r
    這個(gè)全面的軟件棧使模型能快速部署到Azure OpenAI服務(wù)。
    5 g( f* m7 ^% O) `/ t
    & F9 S( X3 `! Y

    ; Y/ k& q: S7 I$ G9 c# |& n編程模型和優(yōu)化  k, F; t2 q2 D! H# L4 l- B
    Maia 100支持兩種主要編程模型:
  • Triton:高級(jí)、硬件無(wú)關(guān)的方法
  • Maia API:低級(jí)、Maia專用方法,提供最大控制和性能
    " A: w: o0 S. T4 r[/ol]8 m! S  R6 Y) M$ Z% D

    4 m7 L: K8 M6 `5 x5 v圖5演示了Maia 100中使用信號(hào)量的異步編程模型,說明命令和數(shù)據(jù)如何在系統(tǒng)中流動(dòng)。
    * F: P$ F- \# ]5 @$ y: M+ m4 r5 I. G( `. w
    使用信號(hào)量的異步編程模型允許在芯片資源間高效調(diào)度和執(zhí)行任務(wù)。
    7 n% V, ~6 e( B& d( W% `+ V9 x% O
    ' \( B$ w0 p( h! Z8 m7 TGEMM分區(qū)和調(diào)度
    7 u1 ^! c+ d; T( l% `矩陣乘法(GEMM)操作對(duì)AI工作負(fù)載極為重要。Maia 100實(shí)現(xiàn)了優(yōu)化的GEMM分區(qū)和調(diào)度技術(shù)。
    , O$ @; j; a' {8 {7 f2 N6 O
    & V" l& @$ V* J# [3 J圖6展示了Maia 100中GEMM操作的優(yōu)化片上數(shù)據(jù)流,顯示計(jì)算如何分布在集群間以及數(shù)據(jù)如何高效移動(dòng)。
    # d' @& [) `3 ^. I+ k
    * ?- g& U8 U7 i+ u  ~2 `2 W. K# T主要優(yōu)化包括:: ~! E# T" Y5 W7 w
  • 基于收集的矩陣乘法
  • 融合元素級(jí)激活函數(shù)
  • 計(jì)算與網(wǎng)絡(luò)通信重疊
  • 通過網(wǎng)絡(luò)發(fā)送量化數(shù)據(jù)(MX)
  • 利用L2 SRAM(CSRAM)緩沖激活值并減少HBM訪問
    , K- D7 P( |0 P" m" w8 A

    7 `7 B- D8 j! Q# DPyTorch集成和分布式計(jì)算. y% e% \: X* {
    Maia 100提供與PyTorch的無(wú)縫集成,使開發(fā)者能輕松移植現(xiàn)有模型,只需最小改動(dòng)。1 o. l) `0 K; S9 s% t
    6 D& ^- j# H$ I
    圖7演示如何在PyTorch中使用Maia 100,展示從"cuda"到"maia"的簡(jiǎn)單設(shè)備切換。) j, p1 T( e+ f% e& I6 p

    + c. o' D4 r2 \; w. \PyTorch集成包括:
    % l! H+ z% g, O! y! E6 E, g
  • 資源管理(HBM / SRAM / 流 / 事件)
  • 即時(shí)執(zhí)行模式
  • 圖執(zhí)行模式(與torch.compile生態(tài)系統(tǒng)集成)% u& V$ b9 ^8 m- Z; l7 |4 [5 A

    9 T  i  t3 @# |, i6 V* t對(duì)于分布式計(jì)算,Maia 100引入MCCL(微軟通信集合庫(kù))作為torch.distributed的后端,支持廣泛的集合操作。4 A" h7 S& i6 H3 }. H

    0 |8 T/ S/ H% G( E- D; H( j- y開發(fā)者工具0 O" A2 y) g+ V; |5 x
    為支持開發(fā)者使用Maia 100,微軟提供了一套工具:3 c2 o& p+ T" m5 o
    1. maia-smi:設(shè)備管理實(shí)用程序
    4 Q# v% f8 Y3 E- ]# ^1 n1 O+ G3 M/ \  x( I+ _8 U
    2. Maia調(diào)試器:
    . z# t. l" x# U7 b$ R4 R. z% g
  • maia-gdb命令行調(diào)試
  • VS Code插件集成調(diào)試/ L" d. v1 M( O

    : a% Q; J, e; W/ v* v9 M% v& ?5 q3. 崩潰轉(zhuǎn)儲(chǔ)分析# G. Z% y+ d! w1 x7 [" Y" z
    1 ?$ m0 [- u/ {0 ]8 u3 z- |. [
    4. 虛擬平臺(tái)(maia-sim):
    7 Y$ c1 {7 F) r$ l
  • Maia設(shè)備模擬器
    9 G6 {+ n' z* k7 w0 t
    ; g; }3 Y' N8 K# @- ]* n, w
    5. 競(jìng)態(tài)條件分析和執(zhí)行圖分析
    : j' S  M- R3 _% R1 |) H% o( i( ~5 [- O4 c
    6. 日志和性能分析庫(kù)6 e# a$ N5 ~% O4 U$ J# i
    + I( t% {6 H2 m$ ]
    7. Maia性能分析工具(maia-prof)
    # K# ^0 M% S. y! ?  c% P2 m, _7 i2 Y
    8. Maia資源使用監(jiān)控工具(maia-mon)- C/ P% R8 ], V- J
    $ D: t2 X% I; y
    這些工具使開發(fā)者能在Maia 100硬件上高效開發(fā)、調(diào)試和優(yōu)化AI模型。
    % k3 a4 M9 F+ _5 C4 Z9 A  \
    4 _; T4 m3 [8 k微軟的Maia 100代表了定制AI加速器領(lǐng)域的\進(jìn)展。憑借強(qiáng)大的硬件架構(gòu)、全面的軟件生態(tài)系統(tǒng)以及與PyTorch等流行框架的無(wú)縫集成,Maia 100有望推動(dòng)Azure平臺(tái)上下一代大規(guī)模AI工作負(fù)載的發(fā)展。
    & D1 r- \! ]9 `4 n6 U9 r/ B, {7 u* f8 E$ Y) e( o. z- t$ U7 R# Q
    參考文獻(xiàn)
    - N4 o2 @) E+ B1 L" o[1] S. Xu and C. Ramakrishnan, "Inside Maia 100," Microsoft, 2024.
    2 e& ]3 r  H- j; C8 b, U3 \. n/ B5 k: @
    / v9 Q' ?! a* U5 E- END -
    3 E0 `9 F4 ?; ?! C5 Q  _
    4 W( v  }! Y  y% O; s; ^軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    : J) J3 q  n  t7 [9 _點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)" l+ q- a$ q  O7 n1 o
    0 O) A; a& Q# P, Q% `( {  W% s, |
    歡迎轉(zhuǎn)載
    * h+ y, ^2 y# V* k9 Z% {) ~
    # i; f2 T. @0 J轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
    / @# I: }9 g' s
    % W, q8 g$ n$ i6 w4 w9 [
    : W  d% P' A! I+ b/ u& x$ l
    3 I5 j' ~0 C! y% p- F

    1 x' V: ?& }$ {; c, V. e/ e; s* [5 p
    關(guān)注我們- e5 D% Y) t7 C$ P' R5 J
    6 A/ b: G1 ^5 g% i
    4 O3 p$ H- T3 }2 E

    8 N) ~- K* Z" C  l& U! b( s. V
    1 |8 X# i8 L: x" ?% G2 N+ k. g. D

    2 M# Z0 d: n2 f! ?8 O

    , _! C# d& K7 p) d# N4 l3 h
    " J+ T3 D4 q* V
                          6 E" R% r7 _4 Z2 t1 [
    4 u+ ~  u4 p9 W8 f! O3 i. j  A
    / I1 m5 U& }8 O: p2 W2 z- o- @

    # I; {+ I9 W* O/ L" I0 T關(guān)于我們:
    , z) [' f" \! h- U7 d1 @深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。. i6 R) y1 J1 H7 s7 `5 q/ P+ `
    4 s0 N; d2 E* I
    http://www.latitudeda.com/  T! L  ?: D! D1 i
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長(zhǎng)推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表