|
引言
$ N6 a0 M' k$ h6 a0 C本文介紹Tenstorrent公司推出的突破性產(chǎn)品Blackhole。作為一款獨立的AI計算機,Blackhole在人工智能領域展現(xiàn)出強大的潛力[1]。我們將探討其架構、微架構、擴展能力以及軟件生態(tài)系統(tǒng),深入理解這款創(chuàng)新產(chǎn)品的特點和應用前景。9 f, l5 U7 l2 F% J
2 j' ` w6 M$ b: I, Q1 d架構概覽. _ b; w" }1 J
Blackhole代表了Tenstorrent AI硅芯片路線圖的最新一代產(chǎn)品。它在前代產(chǎn)品Grayskull和Wormhole的基礎上,在性能和功能方面都有顯著提升。1 ^7 K! g" W. v( y; j a. W
- i: ]* y/ @( q5 E3 s: Y: [- v
rl3bgdyofbh6403234345.png (497.17 KB, 下載次數(shù): 0)
下載附件
保存到相冊
rl3bgdyofbh6403234345.png
6 天前 上傳
2 l, h: n4 F* X) ~" A) ?圖1展示了Tenstorrent的AI硅芯片路線圖,清晰地顯示了從Grayskull到Blackhole的演進過程。7 x- h5 u) W$ F7 f" x( Q# G
, }/ R; H N; b9 k; W$ B0 E) MBlackhole的主要特點包括:& n3 ^+ Z* x) b) A+ z! I
140個Tensix++核心6納米制造工藝745 TOPS(FP8)性能512 GB/s GDDR6內存帶寬PCIe Gen5x16接口10x400 Gbps以太網(wǎng)連接16個RISC-V CPU核心
, T0 z3 J# t2 j$ J# `' X' J
; |1 j- p- u# x2 @1 {0 b @Blackhole的架構旨在為AI工作負載提供全面的解決方案,將高性能計算與高效的數(shù)據(jù)移動和存儲能力相結合。
2 M) l" j5 w, ]" t( B5 z6 l5 T( k* N
22nmhxpz5oc6403234446.png (239.62 KB, 下載次數(shù): 0)
下載附件
保存到相冊
22nmhxpz5oc6403234446.png
6 天前 上傳
# L8 k" C: ?! a# v圖2展示了Blackhole的布局,顯示了Tensix核心、DRAM核心、以太網(wǎng)核心、PCIe核心和RISC-V CPU的分布情況。
; ^2 E1 {4 \& A* x7 l& e6 u; K" F, `
微架構:全RISC-V可編程! p4 K0 i9 X4 `+ a/ s
Blackhole最顯著的特征之一是全RISC-V可編程架構。這一設計選擇為芯片的各個組件提供了靈活性和效率。
/ O9 Q* O$ W3 p$ w4 J3 h9 q, Q
# ~2 ?4 \* @$ {, e! E, bBaby RISC-V' b$ a4 O9 M! z7 X. F1 v
Blackhole集成了752個Baby RISC-V核心,每個核心提供:
: R& i9 I9 @# L32位計算能力整數(shù)乘法器和除法器浮點支持(FP32 / BFLOAT16)128位向量能力(每個Tensix一個)4 KB指令緩存8 KB數(shù)據(jù)暫存內存
- ]* E. v3 D$ S% \5 N& G. V/ }1 f; N8 A2 c* n% ?; w' p, V
, p+ _6 K" ^3 y5 K- r- d
jxih5scxtlu6403234546.png (324.7 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jxih5scxtlu6403234546.png
6 天前 上傳
. j7 a; J% T$ q$ k5 |+ z$ @9 l圖3展示了Baby RISC-V在Blackhole架構中的布局,說明了在計算、數(shù)據(jù)移動和存儲操作中的作用。/ l$ X9 G( c8 ~- x1 ~' B. o
' v |9 _7 Z) uBig RISC-V
$ }4 x& R2 Y+ r9 s作為Baby RISC-V的補充,Blackhole配備了16個Big RISC-V核心,組織成4個集群,每個集群4個核心。這些核心運行Linux系統(tǒng),作為AI加速器的片上主機。每個Big RISC-V核心包括:! M( G# S/ v y; G# i) D& P
64位、雙發(fā)射、順序執(zhí)行計算能力每個CPU 2 MB的L3緩存每個CPU 128 KB的L2緩存每個CPU 32 KB的L1 I-緩存(2路組相聯(lián))每個CPU 32 KB的L1 D-緩存(4路組相聯(lián))/ m f( G1 h& n$ o, ?5 z5 x8 i& V
" D8 ?5 B8 X) N9 ]
Tensix核心:Blackhole的核心
) V5 [& m% Z) v i$ g& h6 nTensix核心是Blackhole的主要計算單元,結合了強大的數(shù)學引擎和靈活的RISC-V可編程性。: i3 ]/ j" ~( L U5 x+ F, D
4 [* H. b( q& e3 t/ M! |* G! g
gu5hym5pfb36403234646.png (289.16 KB, 下載次數(shù): 0)
下載附件
保存到相冊
gu5hym5pfb36403234646.png
6 天前 上傳
: Z+ d+ U1 d1 @5 _圖4展示了Tensix核心的布局,顯示了RISC-V核心、路由器和內存的分布。+ v) b+ r5 ^+ Q0 y7 }2 ^ i
' C" M6 { l* u3 d數(shù)據(jù)移動' v5 ]6 g2 g) y! T
Blackhole在AI數(shù)據(jù)移動模式方面表現(xiàn)出色,在各種操作中提供了令人印象深刻的帶寬:
- `8 A7 J6 R \9 C* U I& S. ISRAM本地/分片:94 TB/sSRAM鄰居(Halo):47 TB/sSRAM行/列/網(wǎng)格多播:24 TB/sSRAM收集/分散(3跳):16 TB/sSRAM收集/分散(10跳):5 TB/sDRAM行:512 GB/s以太網(wǎng)列:1 TB/s
! n$ t3 }! i$ t5 D6 W* K! ^
) {$ ?4 u j+ z" S% ?" m這種優(yōu)化的數(shù)據(jù)移動架構特別適合AI工作負載中常見的矩陣乘法、卷積和分片數(shù)據(jù)布局。
6 t& k7 Y: j3 c. j. @0 v7 H# W5 f2 r( o% N r3 |
計算能力
6 F" X3 ?2 b0 KTensix核心包含兩個主要的計算引擎:
3 J7 f. K' u6 f1 |/ t9 {1 S8 u1. Tile數(shù)學引擎(Tile Math Engine):
L! i6 ]2 s2 J, A W$ B: n支持多種數(shù)據(jù)格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT8- ]$ x7 c; i7 \$ m- G
在FP8操作中可提供高達745 TFLOPs的性能
8 N, x7 n1 c# F t提供豐富的矩陣指令集架構,包括矩陣乘法、點積、元素級操作和轉置 _; J& S, U" f$ \; v( f3 ]
* G* s6 @* W1 U/ g g% V
2. 向量數(shù)學引擎(Vector Math Engine):9 Z0 E! n* c" j6 v7 F2 N
支持FP32、INT16和INT32操作
P! P7 `8 z; q1 n/ W7 _+ o: X4 {提供通用向量指令集架構,用于元素級操作、排序、重排和查找表
& q! j2 T" s2 u" g2 v' d/ ~' t k( Z1 |& j! h
0mnj4qqqxlw6403234746.png (125.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊
0mnj4qqqxlw6403234746.png
6 天前 上傳
. X4 E8 o0 K% {' p( U圖5展示了Tensix核心的計算能力,顯示了Tile數(shù)學引擎和向量數(shù)學引擎。
- y; V: O! b% o, q6 k9 N9 c7 u1 P6 n U! O1 _
擴展能力
' Z" t/ C% M2 EBlackhole的設計考慮了擴展性,利用強大的以太網(wǎng)連接創(chuàng)建大規(guī)模AI系統(tǒng)。
% k! ^; ~7 {! V) G) K# {% o
; m3 W7 T9 X. l
gntwodq3jnh6403234847.png (338.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊
gntwodq3jnh6403234847.png
6 天前 上傳
1 @( t' S9 J" C
圖6展示了Blackhole基于以太網(wǎng)的擴展能力,顯示了多個芯片如何在網(wǎng)格拓撲中連接。
. B, U( z3 p b! C1 ^
8 q, f7 d5 I/ {/ m: MBlackhole Galaxy是一個由32個芯片組成的4x8網(wǎng)格配置,展示了該架構的可擴展性:
/ o- _; k% ^+ E7 m9 i: p5 NZ維度I/O:32 x 200 GB/sY維度I/O:16 x 200 GB/sX維度I/O:8 x 200 GB/sGalaxy總I/O:11.2 TB/s0 W" _8 G9 F0 J/ C9 u2 j
% W; a& A/ M6 {! t' f這種擴展能力使Blackhole能夠通過在多個芯片上分配計算來應對最具挑戰(zhàn)性的AI工作負載。8 |) t- z1 p N1 C9 g
# d8 R% U# t( Y0 g6 f軟件生態(tài)系統(tǒng):TT-Metalium7 ~' ]0 U) S' r2 \# E
為了充分利用Blackhole的能力,Tenstorrent開發(fā)了專門為AI和擴展操作構建的軟件框架TT-Metalium。
6 S5 S) O3 _( |" o7 G2 J. ~0 p4 U0 ]3 Q7 q9 h
TT-Metalium的主要特點包括:
: T6 t. L/ J( T! i5 A) @原生多設備內核和運算符使用普通C++編程,具有專用的數(shù)據(jù)移動和計算內核API直接優(yōu)化數(shù)據(jù)移動和計算重疊完全控制SRAM和DRAM中的數(shù)據(jù)布局和持久性支持不同核心運行不同內核,核心之間直接數(shù)據(jù)流原生多設備內核,具有融合和重疊的計算和芯片間通信
. C& A& B3 R: Q7 W- u: L1 X* B/ w+ ~- E: J6 m4 n
" ]1 o# z0 M, V, E( l4 N$ h
4ff3hbnupww6403234947.png (489.37 KB, 下載次數(shù): 0)
下載附件
保存到相冊
4ff3hbnupww6403234947.png
6 天前 上傳
# C, R! ~# a: h$ v1 V: ?% w1 E圖7比較了TT-Metalium的編程模型與傳統(tǒng)GPU編程,突出了其在AI工作負載方面的優(yōu)勢。
5 o7 g3 a. ]: L+ B; n; T* p
! _8 g" J0 i, \& h$ q3 yTenstorrent還開發(fā)了廣泛的開源軟件生態(tài)系統(tǒng),以支持Blackhole和其他AI加速器:
9 ]# Q6 w& r% j9 B- G+ p! m4 uTT-Forge:集成到各種框架中,用于原生模型導入TT-MLIR:新的基于MLIR的編譯器TT-NN:優(yōu)化運算符庫,具有ATen覆蓋率和類似PyTorch的APITT-Metalium:低級編程模型和入口點 m, k1 K9 p6 R
: v; `8 ?. ~. E" i( _
9 I7 R, s1 Q' J3 [
azlmt1kk42p6403235047.png (320.99 KB, 下載次數(shù): 0)
下載附件
保存到相冊
azlmt1kk42p6403235047.png
6 天前 上傳
* q$ F9 l+ q) {8 L- F+ u) W! A3 b圖8展示了支持Blackhole和其他Tenstorrent產(chǎn)品的全面軟件生態(tài)系統(tǒng)和集成。
6 ^9 `$ J% S2 Z
# M0 a) V+ @6 L7 U- t1 T( z% L結論
. @5 M6 C4 U! d6 p' @Tenstorrent的Blackhole提供了專為現(xiàn)代AI工作負載需求設計的強大、可擴展和靈活的架構。憑借全RISC-V可編程設計、令人印象深刻的計算能力和優(yōu)化的數(shù)據(jù)移動,Blackhole有望加速各個領域的AI研究和應用。# g9 C: i7 P+ f- ^5 @, o% v3 x
1 b7 P9 s# c7 W' O8 hBlackhole的硬件創(chuàng)新與TT-Metalium軟件生態(tài)系統(tǒng)的結合為開發(fā)人員和研究人員提供了一個全面的平臺,用于推動AI的邊界。隨著該領域的不斷發(fā)展,Tenstorrent的Blackhole已準備好滿足下一代AI模型和應用日益增長的計算需求。9 s6 b4 e: \; g$ A, z3 [3 G
* U0 c9 {4 ^- `) t% f
參考文獻
* r9 F6 E0 D+ A9 n( G+ w. |[1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024.* M9 N) X# {0 }% w; M. ~) V
4 |8 T/ [4 S0 J/ D. z( W8 U3 k- END -
6 ^* b5 O1 n4 W, y* b1 G0 j( Q9 Y8 r: @. C9 E. A
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。% {; n8 z% X$ M7 p1 q/ e/ l
點擊左下角"閱讀原文"馬上申請
: T) F! [$ T; |) o3 } j! j5 a7 T
; K, c$ `" u4 e歡迎轉載7 C5 e/ R5 d. V; @# j u6 n+ Y3 p
3 W. [1 H H; r( S轉載請注明出處,請勿修改內容和刪除作者信息!7 H( k" c5 ?- g4 X7 l
1 l* G# u+ t' u8 F; u9 d. O& k; J& L4 J! U0 L+ Y
# t4 ?/ Y, E+ U. o" R$ E0 m
c0ewma5srs06403235147.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
c0ewma5srs06403235147.gif
6 天前 上傳
! d; A# _' Q% g9 A4 J; R1 N0 z9 C u0 k% |
關注我們
! d4 X& g. L; K2 A# ^, e% g0 }' o( K3 K( `; \5 Z) X
9 w) c# N: C/ F( f, K
1tyhqznx5ct6403235247.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
1tyhqznx5ct6403235247.png
6 天前 上傳
8 `7 x8 Z7 T* ^3 \
|
; H9 @. }9 J; e( d
ddoar00czsq6403235347.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ddoar00czsq6403235347.png
6 天前 上傳
3 [3 {+ o0 |" K/ a | ! J: v k/ c# A2 f0 O$ Z- o3 @& n+ V
uy0zymgo1qd6403235447.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
uy0zymgo1qd6403235447.png
6 天前 上傳
6 U7 c' a$ `1 [# x* h$ U# q
|
" g% J3 C0 c U' [' m* _% p& f) [5 `0 k1 e1 q! c* Y
3 }5 |1 R0 j2 n e4 z/ \% K
7 y4 z7 m0 l" c
關于我們:
; A) Q; F* d5 h; u: s m" G; Q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。) s, w7 o p6 s1 h' D1 F
: Y+ X* h7 l f) \http://www.latitudeda.com/
7 d5 b1 \3 h# _1 M, ~' Q6 v( ]* ~(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內容) |
|