|
引言
: A, o0 a+ c1 W8 r Z7 p本文介紹Tenstorrent公司推出的突破性產(chǎn)品Blackhole。作為一款獨立的AI計算機,Blackhole在人工智能領(lǐng)域展現(xiàn)出強大的潛力[1]。我們將探討其架構(gòu)、微架構(gòu)、擴展能力以及軟件生態(tài)系統(tǒng),深入理解這款創(chuàng)新產(chǎn)品的特點和應(yīng)用前景。
8 r8 U/ O9 ]/ Z* q5 ]
, @) \& a7 S6 H9 V3 b+ @6 q架構(gòu)概覽
! b, }; r8 H. EBlackhole代表了Tenstorrent AI硅芯片路線圖的最新一代產(chǎn)品。它在前代產(chǎn)品Grayskull和Wormhole的基礎(chǔ)上,在性能和功能方面都有顯著提升。, J) u" _; l& M$ J4 t7 u7 m
- `8 T: z7 o4 v' y$ ]0 V
rl3bgdyofbh6403234345.png (497.17 KB, 下載次數(shù): 1)
下載附件
保存到相冊
rl3bgdyofbh6403234345.png
6 天前 上傳
' q9 w+ y* O1 r- m9 N) b
圖1展示了Tenstorrent的AI硅芯片路線圖,清晰地顯示了從Grayskull到Blackhole的演進過程。% ~+ B6 R/ s! D& a( Y
9 ?) R l7 K i6 k. G6 ]3 F% g. D
Blackhole的主要特點包括:( S1 z8 M, E) n, B, p6 I
140個Tensix++核心6納米制造工藝745 TOPS(FP8)性能512 GB/s GDDR6內(nèi)存帶寬PCIe Gen5x16接口10x400 Gbps以太網(wǎng)連接16個RISC-V CPU核心2 H" F% L; F4 [0 F) ~ h
' I, a3 W( H" P9 S8 g3 N0 V; A
Blackhole的架構(gòu)旨在為AI工作負載提供全面的解決方案,將高性能計算與高效的數(shù)據(jù)移動和存儲能力相結(jié)合。
8 O% N! u6 f" C& k+ D
7 a5 ?; p8 }% e. S' e3 \ ]
22nmhxpz5oc6403234446.png (239.62 KB, 下載次數(shù): 0)
下載附件
保存到相冊
22nmhxpz5oc6403234446.png
6 天前 上傳
" W- P. z0 Q8 m圖2展示了Blackhole的布局,顯示了Tensix核心、DRAM核心、以太網(wǎng)核心、PCIe核心和RISC-V CPU的分布情況。2 i. @3 c( f/ V
! h7 T( ~) N! s9 ^! @9 s4 ^微架構(gòu):全RISC-V可編程6 z+ Q/ \) x& H7 b9 O9 r
Blackhole最顯著的特征之一是全RISC-V可編程架構(gòu)。這一設(shè)計選擇為芯片的各個組件提供了靈活性和效率。
, W4 C" t4 A+ p/ Z1 X7 \
1 m7 Y8 P0 ?9 X# A! F e J/ V9 K9 Y' bBaby RISC-V
0 d7 k: O# T; f9 R# _! l3 |0 B4 UBlackhole集成了752個Baby RISC-V核心,每個核心提供:
) A( y0 F( |* @! x2 [* z, I2 b32位計算能力整數(shù)乘法器和除法器浮點支持(FP32 / BFLOAT16)128位向量能力(每個Tensix一個)4 KB指令緩存8 KB數(shù)據(jù)暫存內(nèi)存
+ {% K q4 ]( U
+ m% k* p9 q/ u* W y5 V1 T1 S) u+ |( _: a- | Z e! a8 N/ s
jxih5scxtlu6403234546.png (324.7 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jxih5scxtlu6403234546.png
6 天前 上傳
7 p) B" k$ s; y: v( p% l' I圖3展示了Baby RISC-V在Blackhole架構(gòu)中的布局,說明了在計算、數(shù)據(jù)移動和存儲操作中的作用。
" ~% M$ w5 S) |) I' h/ ]! X+ K# O' k
Big RISC-V
: ], v; h1 c e0 a) O' B# [0 @3 A" f0 V作為Baby RISC-V的補充,Blackhole配備了16個Big RISC-V核心,組織成4個集群,每個集群4個核心。這些核心運行Linux系統(tǒng),作為AI加速器的片上主機。每個Big RISC-V核心包括:
( J0 N8 P! W& j# |, D64位、雙發(fā)射、順序執(zhí)行計算能力每個CPU 2 MB的L3緩存每個CPU 128 KB的L2緩存每個CPU 32 KB的L1 I-緩存(2路組相聯(lián))每個CPU 32 KB的L1 D-緩存(4路組相聯(lián))
2 Z# S B! ~! l3 ^
% ?7 F1 M* ~( ]- j* i# i( A6 ETensix核心:Blackhole的核心
/ W% s+ [* L0 j! U ~4 ~6 H( _8 LTensix核心是Blackhole的主要計算單元,結(jié)合了強大的數(shù)學(xué)引擎和靈活的RISC-V可編程性。& R( V, A- \$ l' T5 c; O3 s) B
0 a0 K* M6 q. a# t; q4 Z
gu5hym5pfb36403234646.png (289.16 KB, 下載次數(shù): 0)
下載附件
保存到相冊
gu5hym5pfb36403234646.png
6 天前 上傳
4 c" x# ~0 Q& {
圖4展示了Tensix核心的布局,顯示了RISC-V核心、路由器和內(nèi)存的分布。
/ F# h- }* X l: q9 h
+ l" ] y8 r9 y" V! L, K數(shù)據(jù)移動* O' {1 T, K- r0 G( o0 o
Blackhole在AI數(shù)據(jù)移動模式方面表現(xiàn)出色,在各種操作中提供了令人印象深刻的帶寬:
* A* N, x1 F" [' [+ k. H% ~SRAM本地/分片:94 TB/sSRAM鄰居(Halo):47 TB/sSRAM行/列/網(wǎng)格多播:24 TB/sSRAM收集/分散(3跳):16 TB/sSRAM收集/分散(10跳):5 TB/sDRAM行:512 GB/s以太網(wǎng)列:1 TB/s
! C# Q: L/ w. T" W4 }& n a: z9 L1 Q. x+ `0 s
這種優(yōu)化的數(shù)據(jù)移動架構(gòu)特別適合AI工作負載中常見的矩陣乘法、卷積和分片數(shù)據(jù)布局。
8 a3 w( u7 i9 i' k; V" q# @' ^& ]' i( R
計算能力9 H0 J4 G2 F0 H: |- }
Tensix核心包含兩個主要的計算引擎:( @) U) n6 {% s; C9 n( ?- j
1. Tile數(shù)學(xué)引擎(Tile Math Engine):# G; x. Q( Y; C( N R5 j8 K
支持多種數(shù)據(jù)格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT80 G0 H- D5 U" T& l
在FP8操作中可提供高達745 TFLOPs的性能
8 J; s& d6 k3 d1 Z8 l9 X, i提供豐富的矩陣指令集架構(gòu),包括矩陣乘法、點積、元素級操作和轉(zhuǎn)置3 n5 x( p, @0 \/ K' a T4 |, K; X: v$ z
* s O4 _( [9 }* d, e! f' `: n2. 向量數(shù)學(xué)引擎(Vector Math Engine):
9 O/ b& L a1 Y: Y3 J( m支持FP32、INT16和INT32操作
4 K# o4 |$ u9 H' b提供通用向量指令集架構(gòu),用于元素級操作、排序、重排和查找表
* Q }" G# |7 q$ d( ^0 g7 |
5 Z7 C+ @, k. F5 P6 o
0mnj4qqqxlw6403234746.png (125.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊
0mnj4qqqxlw6403234746.png
6 天前 上傳
( `) @: n7 T% i5 X& T' _# k
圖5展示了Tensix核心的計算能力,顯示了Tile數(shù)學(xué)引擎和向量數(shù)學(xué)引擎。
7 G2 g# h+ o; X8 n
% ^6 }: d' `$ s/ u L3 k' q" l擴展能力( _0 i7 i; f& F- H) \/ U( x
Blackhole的設(shè)計考慮了擴展性,利用強大的以太網(wǎng)連接創(chuàng)建大規(guī)模AI系統(tǒng)。" d' x& m" ?: m' ~- u) }
) v2 _# i G" b0 l. Q! Z
gntwodq3jnh6403234847.png (338.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊
gntwodq3jnh6403234847.png
6 天前 上傳
3 G( m: k1 S8 r- R* l( Z
圖6展示了Blackhole基于以太網(wǎng)的擴展能力,顯示了多個芯片如何在網(wǎng)格拓撲中連接。9 q4 I1 i5 A) k$ R" I9 D# ~
! o" w8 X- r1 @2 f0 N. KBlackhole Galaxy是一個由32個芯片組成的4x8網(wǎng)格配置,展示了該架構(gòu)的可擴展性:% T! W2 ]9 h8 c a- y
Z維度I/O:32 x 200 GB/sY維度I/O:16 x 200 GB/sX維度I/O:8 x 200 GB/sGalaxy總I/O:11.2 TB/s
+ n9 N/ T& ?1 ]% s/ z5 W& A* t( ^; H4 a9 |% R& u5 @4 u8 ^$ K' y
這種擴展能力使Blackhole能夠通過在多個芯片上分配計算來應(yīng)對最具挑戰(zhàn)性的AI工作負載。& O' G3 G4 v: T. u8 k* k( B6 t4 L3 Q
* X& F' k# ]8 T- S
軟件生態(tài)系統(tǒng):TT-Metalium, G; e8 ~% P6 F& c9 j* Z
為了充分利用Blackhole的能力,Tenstorrent開發(fā)了專門為AI和擴展操作構(gòu)建的軟件框架TT-Metalium。' Y4 u g2 q) v- {, K
, G- R1 A* z6 Q$ u9 h2 ~, tTT-Metalium的主要特點包括:
& |6 e9 }2 Z% X" n7 g原生多設(shè)備內(nèi)核和運算符使用普通C++編程,具有專用的數(shù)據(jù)移動和計算內(nèi)核API直接優(yōu)化數(shù)據(jù)移動和計算重疊完全控制SRAM和DRAM中的數(shù)據(jù)布局和持久性支持不同核心運行不同內(nèi)核,核心之間直接數(shù)據(jù)流原生多設(shè)備內(nèi)核,具有融合和重疊的計算和芯片間通信
9 X( e! h8 C/ ?& g5 t7 ]0 K9 R% d- l' P$ E5 z
. v1 D6 `/ @+ t
4ff3hbnupww6403234947.png (489.37 KB, 下載次數(shù): 0)
下載附件
保存到相冊
4ff3hbnupww6403234947.png
6 天前 上傳
0 T" }% y& h% D& w圖7比較了TT-Metalium的編程模型與傳統(tǒng)GPU編程,突出了其在AI工作負載方面的優(yōu)勢。
: R" T& ]% Q6 O) O3 ^) V6 x) |5 b; ~0 P3 x
Tenstorrent還開發(fā)了廣泛的開源軟件生態(tài)系統(tǒng),以支持Blackhole和其他AI加速器:' N6 ]* c" k5 i, {
TT-Forge:集成到各種框架中,用于原生模型導(dǎo)入TT-MLIR:新的基于MLIR的編譯器TT-NN:優(yōu)化運算符庫,具有ATen覆蓋率和類似PyTorch的APITT-Metalium:低級編程模型和入口點. L# ?8 Y) @" X. i5 o
+ U: a( ]3 U. {; O& I. I6 W4 X
1 `2 f: [0 m) r* S4 k
azlmt1kk42p6403235047.png (320.99 KB, 下載次數(shù): 0)
下載附件
保存到相冊
azlmt1kk42p6403235047.png
6 天前 上傳
+ b0 {5 d9 O3 B
圖8展示了支持Blackhole和其他Tenstorrent產(chǎn)品的全面軟件生態(tài)系統(tǒng)和集成。: T, {2 r0 M1 h! h. w! V S
) A! D8 E$ a5 p7 H# S
結(jié)論
# F |& K. x3 i1 L. \ V& y6 p; y9 pTenstorrent的Blackhole提供了專為現(xiàn)代AI工作負載需求設(shè)計的強大、可擴展和靈活的架構(gòu)。憑借全RISC-V可編程設(shè)計、令人印象深刻的計算能力和優(yōu)化的數(shù)據(jù)移動,Blackhole有望加速各個領(lǐng)域的AI研究和應(yīng)用。7 Y' J9 P V8 M$ ?, r2 B3 U/ O, y
& F1 p7 N2 {/ V$ ^
Blackhole的硬件創(chuàng)新與TT-Metalium軟件生態(tài)系統(tǒng)的結(jié)合為開發(fā)人員和研究人員提供了一個全面的平臺,用于推動AI的邊界。隨著該領(lǐng)域的不斷發(fā)展,Tenstorrent的Blackhole已準備好滿足下一代AI模型和應(yīng)用日益增長的計算需求。
) @6 R* c1 P" K! |' \, }3 |: ~1 J9 l1 @8 s- I. y# Z0 ~
參考文獻* N& c! N1 n. S! {% I# j
[1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024./ \+ a, Z: q2 y/ `) a7 D
9 ~. L! d7 J! [" M* e- w- END -
8 N: ]) \- N0 K0 z8 M% Y
! v" X" F- \7 ~軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
) M+ u+ R) @2 j$ a- |點擊左下角"閱讀原文"馬上申請
( H: C7 z9 V% r' H; f1 f: D4 J; Y5 a
/ O" b. x K8 q歡迎轉(zhuǎn)載5 b. t2 W( h: C% s$ \' F; N
# o6 u: T0 t7 ?7 F' n4 Z轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
% h( |' }) X: } O+ t2 u
: F) ]+ o- U# j; |3 t1 z+ W# u2 _4 C! ?# Z1 @5 u: }$ U/ q. O
' E6 C$ x% \6 z0 t4 Z
c0ewma5srs06403235147.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
c0ewma5srs06403235147.gif
6 天前 上傳
( u, H/ w4 T" d; k0 M2 K' F5 n5 _1 f0 H
關(guān)注我們1 Q6 e$ |) y7 l- M
+ P6 r( J7 ^9 x. T3 x3 w0 @; i! U$ N1 r/ U
1tyhqznx5ct6403235247.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
1tyhqznx5ct6403235247.png
6 天前 上傳
- M" M; w* s& O
| , |$ \" I G# d& F% g1 G. I! l
ddoar00czsq6403235347.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ddoar00czsq6403235347.png
6 天前 上傳
! k7 i6 U+ Q0 }( [- M
| ?8 C# n* h! x3 |3 _7 I! o) @
uy0zymgo1qd6403235447.png (21.52 KB, 下載次數(shù): 1)
下載附件
保存到相冊
uy0zymgo1qd6403235447.png
6 天前 上傳
4 d) e2 }( A8 m: Q" U
|
" K) w4 t. E7 i7 W4 E& E1 L2 b3 J' s
- H' C) d/ X$ ~
* J* V9 }" ~6 l' [% V i4 q8 E5 z關(guān)于我們:
8 C9 p; p; C) _9 U深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。9 d3 _- k6 |( Q' O/ a7 @
" \$ S3 U2 Q* H/ {8 y
http://www.latitudeda.com/
; I' H& ?. t# p" {(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|