|
引言
+ s2 R0 @. I! B7 w* j" C. U本文介紹Tenstorrent公司推出的突破性產(chǎn)品Blackhole。作為一款獨(dú)立的AI計(jì)算機(jī),Blackhole在人工智能領(lǐng)域展現(xiàn)出強(qiáng)大的潛力[1]。我們將探討其架構(gòu)、微架構(gòu)、擴(kuò)展能力以及軟件生態(tài)系統(tǒng),深入理解這款創(chuàng)新產(chǎn)品的特點(diǎn)和應(yīng)用前景。, U4 T/ t% f/ a5 `. [
- b% H* k! I" l3 O* F0 O架構(gòu)概覽: R9 Z2 h7 M9 b2 f/ h
Blackhole代表了Tenstorrent AI硅芯片路線圖的最新一代產(chǎn)品。它在前代產(chǎn)品Grayskull和Wormhole的基礎(chǔ)上,在性能和功能方面都有顯著提升。
: g. |5 h% u& }) P
5 h ]6 Y V( d$ j& V7 i
rl3bgdyofbh6403234345.png (497.17 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
rl3bgdyofbh6403234345.png
6 天前 上傳
/ Q" u b" z9 G) K
圖1展示了Tenstorrent的AI硅芯片路線圖,清晰地顯示了從Grayskull到Blackhole的演進(jìn)過(guò)程。& C: w' ?) _( j
9 k9 r! q* m+ _. T) ?Blackhole的主要特點(diǎn)包括:! m! \" q5 H7 G0 Y- T( u0 P5 N# G
140個(gè)Tensix++核心6納米制造工藝745 TOPS(FP8)性能512 GB/s GDDR6內(nèi)存帶寬PCIe Gen5x16接口10x400 Gbps以太網(wǎng)連接16個(gè)RISC-V CPU核心
6 ^" E4 c7 `3 K4 [5 k& a5 X4 ~. r2 b3 k$ p
Blackhole的架構(gòu)旨在為AI工作負(fù)載提供全面的解決方案,將高性能計(jì)算與高效的數(shù)據(jù)移動(dòng)和存儲(chǔ)能力相結(jié)合。: a# e$ ^/ T: ?( i, }
7 t' i$ F. R$ e: s
22nmhxpz5oc6403234446.png (239.62 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
22nmhxpz5oc6403234446.png
6 天前 上傳
( E L# Y H" m: B `圖2展示了Blackhole的布局,顯示了Tensix核心、DRAM核心、以太網(wǎng)核心、PCIe核心和RISC-V CPU的分布情況。. D* [. K% b* S+ D- n
2 _! b+ X- r$ a0 \/ r+ U9 c0 h1 g微架構(gòu):全RISC-V可編程8 V% ]" h! L8 B6 B
Blackhole最顯著的特征之一是全RISC-V可編程架構(gòu)。這一設(shè)計(jì)選擇為芯片的各個(gè)組件提供了靈活性和效率。
$ Q0 Y* q6 z( N9 m- f0 F8 s2 k' s& T8 ~5 o+ q6 V7 v
Baby RISC-V L4 |3 @- ^9 [2 o* g# y
Blackhole集成了752個(gè)Baby RISC-V核心,每個(gè)核心提供:( q. \6 [$ @ K0 ?$ i8 ]
32位計(jì)算能力整數(shù)乘法器和除法器浮點(diǎn)支持(FP32 / BFLOAT16)128位向量能力(每個(gè)Tensix一個(gè))4 KB指令緩存8 KB數(shù)據(jù)暫存內(nèi)存+ Q+ e! v- m" T' ^4 f$ h; o
# ~+ Q$ O4 ?2 _& c' f& @1 a( P
- }- Y4 A" [; b% x/ ^9 Q* x
jxih5scxtlu6403234546.png (324.7 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
jxih5scxtlu6403234546.png
6 天前 上傳
( O' f1 n* u- o; Z$ e
圖3展示了Baby RISC-V在Blackhole架構(gòu)中的布局,說(shuō)明了在計(jì)算、數(shù)據(jù)移動(dòng)和存儲(chǔ)操作中的作用。
1 m7 w2 o' v1 N/ a
8 p* E5 N2 `. _+ g2 qBig RISC-V
6 l/ i0 f& S# f" b作為Baby RISC-V的補(bǔ)充,Blackhole配備了16個(gè)Big RISC-V核心,組織成4個(gè)集群,每個(gè)集群4個(gè)核心。這些核心運(yùn)行Linux系統(tǒng),作為AI加速器的片上主機(jī)。每個(gè)Big RISC-V核心包括:) Y3 x% q7 P$ ~$ ^
64位、雙發(fā)射、順序執(zhí)行計(jì)算能力每個(gè)CPU 2 MB的L3緩存每個(gè)CPU 128 KB的L2緩存每個(gè)CPU 32 KB的L1 I-緩存(2路組相聯(lián))每個(gè)CPU 32 KB的L1 D-緩存(4路組相聯(lián))
v4 C9 L/ A7 U: {# E2 }9 |' Q, J, e9 Z
Tensix核心:Blackhole的核心) A T9 D* u6 M3 L4 n% l% J9 e
Tensix核心是Blackhole的主要計(jì)算單元,結(jié)合了強(qiáng)大的數(shù)學(xué)引擎和靈活的RISC-V可編程性。- @& F7 z) W3 ?! v/ V( S( M
9 m2 V9 D& W* d( Q% Y7 ?" P
gu5hym5pfb36403234646.png (289.16 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
gu5hym5pfb36403234646.png
6 天前 上傳
5 S; _5 ~) g* Y
圖4展示了Tensix核心的布局,顯示了RISC-V核心、路由器和內(nèi)存的分布。
! O! D5 W9 t8 H2 ~
/ |, G0 ?0 D! G2 v, o數(shù)據(jù)移動(dòng)$ h) b4 O- X* T1 ?. A2 h, g
Blackhole在AI數(shù)據(jù)移動(dòng)模式方面表現(xiàn)出色,在各種操作中提供了令人印象深刻的帶寬:
# D* H( Z1 y. O* QSRAM本地/分片:94 TB/sSRAM鄰居(Halo):47 TB/sSRAM行/列/網(wǎng)格多播:24 TB/sSRAM收集/分散(3跳):16 TB/sSRAM收集/分散(10跳):5 TB/sDRAM行:512 GB/s以太網(wǎng)列:1 TB/s5 ~9 ^! ^ w; X( D. d3 `, I
' F* s: ?7 p8 V& ^& \" s5 E
這種優(yōu)化的數(shù)據(jù)移動(dòng)架構(gòu)特別適合AI工作負(fù)載中常見(jiàn)的矩陣乘法、卷積和分片數(shù)據(jù)布局。
. n3 G; ]9 K5 T
* f" Y- E+ c, N計(jì)算能力! g2 \ s. x4 I" x. G9 Q. @
Tensix核心包含兩個(gè)主要的計(jì)算引擎:7 v3 e7 ?: N5 q' m( r
1. Tile數(shù)學(xué)引擎(Tile Math Engine):0 ?3 o/ B9 t. F. Z! P
支持多種數(shù)據(jù)格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT88 l% Y; J. ^. d: j3 x
在FP8操作中可提供高達(dá)745 TFLOPs的性能
1 M. t2 q. S/ f( f提供豐富的矩陣指令集架構(gòu),包括矩陣乘法、點(diǎn)積、元素級(jí)操作和轉(zhuǎn)置3 Q" W& r4 E) F U& w
1 U7 @0 i! A' L/ m/ t) m. w y3 n2. 向量數(shù)學(xué)引擎(Vector Math Engine):
: `7 X9 M7 P5 E; E$ M; m# A支持FP32、INT16和INT32操作
3 ?0 M- ^; ]5 ^6 r5 L提供通用向量指令集架構(gòu),用于元素級(jí)操作、排序、重排和查找表
7 Q& n* e8 |- f3 ?+ F6 }
$ O( c. X) r* N5 l
0mnj4qqqxlw6403234746.png (125.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
0mnj4qqqxlw6403234746.png
6 天前 上傳
' s2 K W$ f4 |9 c) v! q( W圖5展示了Tensix核心的計(jì)算能力,顯示了Tile數(shù)學(xué)引擎和向量數(shù)學(xué)引擎。, f3 Q) Y* W9 G0 X; x' l
3 \8 r0 Z3 i( z0 c. O
擴(kuò)展能力
5 s; k/ D/ h- DBlackhole的設(shè)計(jì)考慮了擴(kuò)展性,利用強(qiáng)大的以太網(wǎng)連接創(chuàng)建大規(guī)模AI系統(tǒng)。
' n2 C0 J; h" I! h6 l" l' e+ f! n4 T e
; R* Z4 C1 O, k1 D
gntwodq3jnh6403234847.png (338.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
gntwodq3jnh6403234847.png
6 天前 上傳
5 N3 y5 n" _/ F* l9 W5 o
圖6展示了Blackhole基于以太網(wǎng)的擴(kuò)展能力,顯示了多個(gè)芯片如何在網(wǎng)格拓?fù)渲羞B接。* F' Y6 g1 Y( l; O4 h/ x8 h% t% p
5 m' ~( ], A0 k
Blackhole Galaxy是一個(gè)由32個(gè)芯片組成的4x8網(wǎng)格配置,展示了該架構(gòu)的可擴(kuò)展性:
' `3 i5 U0 v6 I5 C6 o3 lZ維度I/O:32 x 200 GB/sY維度I/O:16 x 200 GB/sX維度I/O:8 x 200 GB/sGalaxy總I/O:11.2 TB/s
* O/ L- H0 |: w; S5 Z l( ?
+ L$ W/ b1 u1 @, s1 G這種擴(kuò)展能力使Blackhole能夠通過(guò)在多個(gè)芯片上分配計(jì)算來(lái)應(yīng)對(duì)最具挑戰(zhàn)性的AI工作負(fù)載。
% t+ v$ Z, [0 i' s; p! {) A1 l I4 ~3 X( x, x2 G
軟件生態(tài)系統(tǒng):TT-Metalium4 k% ?1 V8 u7 r7 L# E- M& i7 Q. \. i
為了充分利用Blackhole的能力,Tenstorrent開(kāi)發(fā)了專門為AI和擴(kuò)展操作構(gòu)建的軟件框架TT-Metalium。
4 A0 J) ^/ V! M) a0 }3 c x
7 {- r/ b9 U: b7 B+ d0 P& S" ]: o oTT-Metalium的主要特點(diǎn)包括:
m0 k$ x- l. \5 e5 U4 {原生多設(shè)備內(nèi)核和運(yùn)算符使用普通C++編程,具有專用的數(shù)據(jù)移動(dòng)和計(jì)算內(nèi)核API直接優(yōu)化數(shù)據(jù)移動(dòng)和計(jì)算重疊完全控制SRAM和DRAM中的數(shù)據(jù)布局和持久性支持不同核心運(yùn)行不同內(nèi)核,核心之間直接數(shù)據(jù)流原生多設(shè)備內(nèi)核,具有融合和重疊的計(jì)算和芯片間通信9 e5 h, A+ o- F
3 r! w0 R2 a- C; i1 O7 O' M
$ e+ z! f% p9 J) }: y$ [2 S0 ?3 q
4ff3hbnupww6403234947.png (489.37 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
4ff3hbnupww6403234947.png
6 天前 上傳
/ ^2 A8 a) h& u& m' C( b3 M4 j4 `6 Q2 ?
圖7比較了TT-Metalium的編程模型與傳統(tǒng)GPU編程,突出了其在AI工作負(fù)載方面的優(yōu)勢(shì)。
* E W7 h2 @2 r$ R2 d% H% ~5 N3 e+ o( S* j- X
Tenstorrent還開(kāi)發(fā)了廣泛的開(kāi)源軟件生態(tài)系統(tǒng),以支持Blackhole和其他AI加速器:: v9 O: K- v) N3 r
TT-Forge:集成到各種框架中,用于原生模型導(dǎo)入TT-MLIR:新的基于MLIR的編譯器TT-NN:優(yōu)化運(yùn)算符庫(kù),具有ATen覆蓋率和類似PyTorch的APITT-Metalium:低級(jí)編程模型和入口點(diǎn)
5 w7 X. P5 c: w; F# w. K0 o- \* l# r5 ~- f
! S$ S+ V( B" D( F/ X5 n$ |
azlmt1kk42p6403235047.png (320.99 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
azlmt1kk42p6403235047.png
6 天前 上傳
4 q% F6 _& m2 [3 X" e圖8展示了支持Blackhole和其他Tenstorrent產(chǎn)品的全面軟件生態(tài)系統(tǒng)和集成。
4 T7 C6 {1 `$ N
2 }( p$ C3 ~8 R/ Y& _1 F5 G. I結(jié)論
, n( y5 }$ N; r7 X2 w% c7 |! x( @( Y2 PTenstorrent的Blackhole提供了專為現(xiàn)代AI工作負(fù)載需求設(shè)計(jì)的強(qiáng)大、可擴(kuò)展和靈活的架構(gòu)。憑借全RISC-V可編程設(shè)計(jì)、令人印象深刻的計(jì)算能力和優(yōu)化的數(shù)據(jù)移動(dòng),Blackhole有望加速各個(gè)領(lǐng)域的AI研究和應(yīng)用。
! H+ a0 ?3 h( [, |5 f0 e$ V
* n5 i) U3 v! ]. lBlackhole的硬件創(chuàng)新與TT-Metalium軟件生態(tài)系統(tǒng)的結(jié)合為開(kāi)發(fā)人員和研究人員提供了一個(gè)全面的平臺(tái),用于推動(dòng)AI的邊界。隨著該領(lǐng)域的不斷發(fā)展,Tenstorrent的Blackhole已準(zhǔn)備好滿足下一代AI模型和應(yīng)用日益增長(zhǎng)的計(jì)算需求。
! ^- }" j' s9 J5 T2 S, A6 C1 ]/ H
" Z2 @! w+ `+ E( k2 @3 r0 q- g參考文獻(xiàn)2 N8 C2 @# Y( D
[1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024.
% y; e# j$ Q& ~8 I# G
I' Y' y- z9 |* j/ v& k6 g9 J0 y! ^- END - a( \( j! F. Q
# c( Q' f5 r/ \6 v9 l* \7 G軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
% G# w! G/ D' H* I; U1 E! a% X點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)3 |, b* V' _5 H0 b- Z/ t# f. w7 P
# Q6 h( @% \1 e* v3 a/ q& I* Z歡迎轉(zhuǎn)載
' u% R& s0 J; H9 n( r$ X- I% n2 o7 b. s" p" h* X E
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!1 e- ?4 R( V0 l4 B" I
3 r& P: ]' X% D3 _% ]
9 k0 |& Q' V% {* ]2 q, N3 R, ^" R7 y ]) @8 k' X9 A3 ]' O# _
c0ewma5srs06403235147.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
c0ewma5srs06403235147.gif
6 天前 上傳
* L* Z/ Z! x9 V0 {; J# Q
) {# D2 h" a- \7 i# Y* M
關(guān)注我們
# e9 Z# t( o7 a3 Q6 t2 I
* }$ N3 ~5 l U
: Y; K3 k& s) D) u. x
1tyhqznx5ct6403235247.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
1tyhqznx5ct6403235247.png
6 天前 上傳
. G/ Q& `- W- [& C4 M
| 7 X4 k: G9 l- |; C3 J3 _6 h
ddoar00czsq6403235347.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ddoar00czsq6403235347.png
6 天前 上傳
" N4 U3 ^! `5 Q0 M9 g |
. L& b9 _ W$ u7 n
uy0zymgo1qd6403235447.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
uy0zymgo1qd6403235447.png
6 天前 上傳
6 `5 x7 S7 b+ H) f1 G* q5 o
|
! F }- l% R; G& A8 V7 q" R7 e. ]) D5 O( S. V
3 P. z, R* }! J$ t/ I; O; j7 x1 k
4 a! Y0 B% w' J; ~1 r關(guān)于我們:4 Z/ _5 w8 g+ e/ |2 N; r
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。6 X; \$ W! k* G& \
2 @& q ~; ~ }/ R
http://www.latitudeda.com/- y3 z6 V. g5 ^+ [4 R
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|