|
引言" d1 l# W* e. l* ]$ ]6 C6 y
本文介紹微軟推出的首代定制AI加速器Maia 100。我們將探討Maia 100的關(guān)鍵特性、架構(gòu)設(shè)計(jì)以及軟件生態(tài)系統(tǒng),揭示其如何在Azure平臺(tái)上革新大規(guī)模AI工作負(fù)載處理[1]。
8 S% l6 S: l& X, f% h. p8 N
Z: T/ e& @4 b9 IMaia 100簡(jiǎn)介# f) G9 P! c, V1 ^5 L
Maia 100專為Azure平臺(tái)設(shè)計(jì),旨在運(yùn)行生產(chǎn)級(jí)OpenAI模型。這款加速器采用垂直整合方法,優(yōu)化性能并降低AI計(jì)算成本。Maia 100基于軟硬件協(xié)同設(shè)計(jì)原則,不僅解鎖新功能,還提高了能源效率。
- d: |( T9 D# f# Q' l% I0 N* [
0tp40ll4fxv64029728938.png (570.14 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
0tp40ll4fxv64029728938.png
12 小時(shí)前 上傳
9 @3 S E( `5 S% N$ z2 }圖1展示了Maia 100芯片的主要規(guī)格,包括尺寸、封裝技術(shù)、內(nèi)存帶寬和計(jì)算能力。
" K; b! _7 d! n6 M
6 o: X/ }% u9 a: A0 n0 uMaia 100芯片規(guī)格如下:
+ o+ C' {$ U* {# i( T芯片尺寸:采用臺(tái)積電5nm工藝,約820平方毫米
# ]# W, @ H+ i3 x, ]% A$ U1 {& d) {$ w
$ _+ \0 s: P0 Z9 j$ t; CHBM帶寬/容量:1.8TB/s,64GB HBM2E
- t8 W; t; u. c- D4 w6 R! {- b, _* R% w. j. G: v# m
峰值密集張量性能:
3 z, g5 r; T: ^! W1 j6位運(yùn)算:3 POPS9位運(yùn)算:1.5 POPSBF16運(yùn)算:0.8 POPS! i/ v3 e( D6 [ b
, L7 s1 n5 R, R5 q" {+ Q
) |) u: P% t% F# a6 }后端網(wǎng)絡(luò)帶寬:600GB/s(12x400GbE)9 |1 Y ]" r' P; d; _1 H6 N# S
- J3 i& l( w' T- A& R9 R
# W7 k' J3 D% S2 H( Z& X2 h2 |+ d主機(jī)帶寬:32GB/s PCIe Gen5 x8# c. q% K# P q! E
- D: Y; p- R. ^1 w3 n
0 [: {. |9 B7 E* h2 P
設(shè)計(jì)TDP:700W(供電TDP:500W)
, h" d& w2 e3 U* k# i2 t3 g) R2 }) e/ \7 S6 D( Y
架構(gòu)深度解析
* j R$ w7 X& u- Q- c5 fMaia 100 SoC(片上系統(tǒng))采用針對(duì)機(jī)器學(xué)習(xí)工作負(fù)載優(yōu)化的分塊架構(gòu)。* a& U, b! T0 q2 N
bvtjah2fxdl64029729038.png (110.42 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
bvtjah2fxdl64029729038.png
12 小時(shí)前 上傳
& V. z$ e' A4 d: u
圖2展示了Maia 100的內(nèi)部架構(gòu),顯示其分塊結(jié)構(gòu)、互連以及各種組件,如張量單元和向量處理器。
! d) J4 \* d- R5 F' w7 h+ t; }, O1 m
主要架構(gòu)特性包括:
" }4 j6 J/ W" d) v: g' P分塊結(jié)構(gòu):每個(gè)SoC包含16個(gè)集群,每個(gè)集群4個(gè)塊高帶寬數(shù)據(jù)網(wǎng)格片上網(wǎng)絡(luò)(NoC)HBM2E內(nèi)存接口PAM4 112G SerDes和PCIe接口5 M/ B) X+ x3 K8 i' S3 V8 W
( u2 N) O# S6 z
每個(gè)塊包含:
/ d r8 U) q, j+ r% c張量單元(TTU):支持各種數(shù)據(jù)類型的高速處理向量處理器(TVP):為ML操作定制的ISA塊數(shù)據(jù)移動(dòng)引擎(TDMA)塊控制處理器(TCP)- j( d3 ]2 ?& w' D
' h5 i; a. H! s' ?Maia 100的ML專用架構(gòu)旨在實(shí)現(xiàn)卓越的性能功耗比。通過以下方式解決數(shù)據(jù)移動(dòng)瓶頸:
( D0 b% Z8 y+ i+ ]% d/ s數(shù)據(jù)壓縮和窄數(shù)據(jù)類型支持(4位、6位、9位)大容量L1/L2暫存器內(nèi)存為ML工作負(fù)載優(yōu)化的網(wǎng)格狀NoC拓?fù)?font class="jammer">- Z8 v+ t, w9 ~7 T& M6 o
& p d) y7 G' ^互連和網(wǎng)絡(luò)能力
, h; ~; q1 g# `Maia 100支持基于以太網(wǎng)的后端網(wǎng)絡(luò),內(nèi)置加密功能保護(hù)用戶數(shù)據(jù)。
# h, v! V0 g" U" k% m# B; [( w/ F
lh4v3maux3464029729138.png (157.74 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
lh4v3maux3464029729138.png
12 小時(shí)前 上傳
# s& L) g; J- p& y$ V
圖3描述了Maia 100的網(wǎng)絡(luò)拓?fù),展示高帶寬以太網(wǎng)鏈路和統(tǒng)一網(wǎng)絡(luò)架構(gòu)。
+ _2 G2 \) n0 A' }, O
* |( ^/ K u( T, H& p' d主要網(wǎng)絡(luò)特性: `( [; B. p" S% ]& Q9 R6 L( Q. c
高帶寬以太網(wǎng)鏈路:
. D$ l# ^6 K5 w6 J全收集/分散-歸約速度達(dá)4800Gbps任意對(duì)任意通信速度達(dá)1200Gbps定制RoCE類協(xié)議,提高可靠性和負(fù)載均衡支持AES-GCM加密統(tǒng)一網(wǎng)絡(luò)支持橫向擴(kuò)展和縱向擴(kuò)展配置
- Y" }" `3 ]# g% L; n3 F! c/ p4 e+ [9 f$ {
Maia SDK和軟件生態(tài)系統(tǒng)# O% u& o- u/ [. C
為充分發(fā)揮Maia 100的潛力,微軟開發(fā)了全面的軟件開發(fā)套件(SDK)和生態(tài)系統(tǒng)。
~6 i7 |2 w4 ~ n! w" [( M8 |
0deuvbgp2ws64029729239.png (207.91 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
0deuvbgp2ws64029729239.png
12 小時(shí)前 上傳
* J% P- \- V; p圖4展示了Maia SDK架構(gòu),顯示從用戶級(jí)接口到硬件抽象層的各個(gè)層次。* m( J) u& t$ \; N5 D, s
3 a' i/ [& T( O Y, L. D6 ?
Maia SDK包括:框架集成(如PyTorch)開發(fā)者工具(調(diào)試器、性能分析器、可視化工具、模型量化和驗(yàn)證工具)Maia編譯器(Triton用于靈活性和可移植性,Maia API用于最高性能)Maia內(nèi)核庫(kù)(類似cuBLAS)Maia集合通信庫(kù)(類似NCCL)用戶內(nèi)核(編譯后)Maia主機(jī)/設(shè)備運(yùn)行時(shí)Maia運(yùn)行時(shí)庫(kù)(HAL); W% K7 \6 a! I# V% x- n; T8 J/ c
[/ol]6 j8 J( g- n2 o r
這個(gè)全面的軟件棧使模型能快速部署到Azure OpenAI服務(wù)。
5 g( f* m7 ^% O) `/ t
& F9 S( X3 `! Y
; Y/ k& q: S7 I$ G9 c# |& n編程模型和優(yōu)化 k, F; t2 q2 D! H# L4 l- B
Maia 100支持兩種主要編程模型:Triton:高級(jí)、硬件無(wú)關(guān)的方法Maia API:低級(jí)、Maia專用方法,提供最大控制和性能
" A: w: o0 S. T4 r[/ol]8 m! S R6 Y) M$ Z% D
w33btcsa3zp64029729339.png (212.61 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
w33btcsa3zp64029729339.png
12 小時(shí)前 上傳
4 m7 L: K8 M6 `5 x5 v圖5演示了Maia 100中使用信號(hào)量的異步編程模型,說明命令和數(shù)據(jù)如何在系統(tǒng)中流動(dòng)。
* F: P$ F- \# ]5 @$ y: M+ m4 r5 I. G( `. w
使用信號(hào)量的異步編程模型允許在芯片資源間高效調(diào)度和執(zhí)行任務(wù)。
7 n% V, ~6 e( B& d( W% `+ V9 x% O
' \( B$ w0 p( h! Z8 m7 TGEMM分區(qū)和調(diào)度
7 u1 ^! c+ d; T( l% `矩陣乘法(GEMM)操作對(duì)AI工作負(fù)載極為重要。Maia 100實(shí)現(xiàn)了優(yōu)化的GEMM分區(qū)和調(diào)度技術(shù)。
, O$ @; j; a' {8 {7 f2 N6 O
afvb5jqkbql64029729439.png (163.29 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
afvb5jqkbql64029729439.png
12 小時(shí)前 上傳
& V" l& @$ V* J# [3 J圖6展示了Maia 100中GEMM操作的優(yōu)化片上數(shù)據(jù)流,顯示計(jì)算如何分布在集群間以及數(shù)據(jù)如何高效移動(dòng)。
# d' @& [) `3 ^. I+ k
* ?- g& U8 U7 i+ u ~2 `2 W. K# T主要優(yōu)化包括:: ~! E# T" Y5 W7 w
基于收集的矩陣乘法融合元素級(jí)激活函數(shù)計(jì)算與網(wǎng)絡(luò)通信重疊通過網(wǎng)絡(luò)發(fā)送量化數(shù)據(jù)(MX)利用L2 SRAM(CSRAM)緩沖激活值并減少HBM訪問
, K- D7 P( |0 P" m" w8 A
7 `7 B- D8 j! Q# DPyTorch集成和分布式計(jì)算. y% e% \: X* {
Maia 100提供與PyTorch的無(wú)縫集成,使開發(fā)者能輕松移植現(xiàn)有模型,只需最小改動(dòng)。1 o. l) `0 K; S9 s% t
hzx2dauclcp64029729539.png (194.72 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
hzx2dauclcp64029729539.png
12 小時(shí)前 上傳
6 D& ^- j# H$ I
圖7演示如何在PyTorch中使用Maia 100,展示從"cuda"到"maia"的簡(jiǎn)單設(shè)備切換。) j, p1 T( e+ f% e& I6 p
+ c. o' D4 r2 \; w. \PyTorch集成包括:
% l! H+ z% g, O! y! E6 E, g資源管理(HBM / SRAM / 流 / 事件)即時(shí)執(zhí)行模式圖執(zhí)行模式(與torch.compile生態(tài)系統(tǒng)集成)% u& V$ b9 ^8 m- Z; l7 |4 [5 A
9 T i t3 @# |, i6 V* t對(duì)于分布式計(jì)算,Maia 100引入MCCL(微軟通信集合庫(kù))作為torch.distributed的后端,支持廣泛的集合操作。4 A" h7 S& i6 H3 }. H
0 |8 T/ S/ H% G( E- D; H( j- y開發(fā)者工具0 O" A2 y) g+ V; |5 x
為支持開發(fā)者使用Maia 100,微軟提供了一套工具:3 c2 o& p+ T" m5 o
1. maia-smi:設(shè)備管理實(shí)用程序
4 Q# v% f8 Y3 E- ]# ^1 n1 O+ G3 M/ \ x( I+ _8 U
2. Maia調(diào)試器:
. z# t. l" x# U7 b$ R4 R. z% gmaia-gdb命令行調(diào)試VS Code插件集成調(diào)試/ L" d. v1 M( O
: a% Q; J, e; W/ v* v9 M% v& ?5 q3. 崩潰轉(zhuǎn)儲(chǔ)分析# G. Z% y+ d! w1 x7 [" Y" z
1 ?$ m0 [- u/ {0 ]8 u3 z- |. [
4. 虛擬平臺(tái)(maia-sim):
7 Y$ c1 {7 F) r$ lMaia設(shè)備模擬器
9 G6 {+ n' z* k7 w0 t; g; }3 Y' N8 K# @- ]* n, w
5. 競(jìng)態(tài)條件分析和執(zhí)行圖分析
: j' S M- R3 _% R1 |) H% o( i( ~5 [- O4 c
6. 日志和性能分析庫(kù)6 e# a$ N5 ~% O4 U$ J# i
+ I( t% {6 H2 m$ ]
7. Maia性能分析工具(maia-prof)
# K# ^0 M% S. y! ? c% P2 m, _7 i2 Y
8. Maia資源使用監(jiān)控工具(maia-mon)- C/ P% R8 ], V- J
$ D: t2 X% I; y
這些工具使開發(fā)者能在Maia 100硬件上高效開發(fā)、調(diào)試和優(yōu)化AI模型。
% k3 a4 M9 F+ _5 C4 Z9 A \
4 _; T4 m3 [8 k微軟的Maia 100代表了定制AI加速器領(lǐng)域的\進(jìn)展。憑借強(qiáng)大的硬件架構(gòu)、全面的軟件生態(tài)系統(tǒng)以及與PyTorch等流行框架的無(wú)縫集成,Maia 100有望推動(dòng)Azure平臺(tái)上下一代大規(guī)模AI工作負(fù)載的發(fā)展。
& D1 r- \! ]9 `4 n6 U9 r/ B, {7 u* f8 E$ Y) e( o. z- t$ U7 R# Q
參考文獻(xiàn)
- N4 o2 @) E+ B1 L" o[1] S. Xu and C. Ramakrishnan, "Inside Maia 100," Microsoft, 2024.
2 e& ]3 r H- j; C8 b, U3 \. n/ B5 k: @
/ v9 Q' ?! a* U5 E- END -
3 E0 `9 F4 ?; ?! C5 Q _
4 W( v }! Y y% O; s; ^軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
: J) J3 q n t7 [9 _點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)" l+ q- a$ q O7 n1 o
0 O) A; a& Q# P, Q% `( { W% s, |
歡迎轉(zhuǎn)載
* h+ y, ^2 y# V* k9 Z% {) ~
# i; f2 T. @0 J轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
/ @# I: }9 g' s
% W, q8 g$ n$ i6 w4 w9 [
: W d% P' A! I+ b/ u& x$ l3 I5 j' ~0 C! y% p- F
3cr1ufno10d64029729639.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
3cr1ufno10d64029729639.gif
12 小時(shí)前 上傳
1 x' V: ?& }$ {; c, V. e/ e; s* [5 p
關(guān)注我們- e5 D% Y) t7 C$ P' R5 J
6 A/ b: G1 ^5 g% i
4 O3 p$ H- T3 }2 E
cqm00evbeub64029729739.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
cqm00evbeub64029729739.png
12 小時(shí)前 上傳
8 N) ~- K* Z" C l& U! b( s. V | 1 |8 X# i8 L: x" ?% G2 N+ k. g. D
ru3kzfyx25z64029729839.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ru3kzfyx25z64029729839.png
12 小時(shí)前 上傳
2 M# Z0 d: n2 f! ?8 O |
, _! C# d& K7 p) d# N4 l3 h
vubfwjjecrj64029729939.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
vubfwjjecrj64029729939.png
12 小時(shí)前 上傳
" J+ T3 D4 q* V | 6 E" R% r7 _4 Z2 t1 [
4 u+ ~ u4 p9 W8 f! O3 i. j A
/ I1 m5 U& }8 O: p2 W2 z- o- @
# I; {+ I9 W* O/ L" I0 T關(guān)于我們:
, z) [' f" \! h- U7 d1 @深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。. i6 R) y1 J1 H7 s7 `5 q/ P+ `
4 s0 N; d2 E* I
http://www.latitudeda.com/ T! L ?: D! D1 i
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|