電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 23|回復: 0
收起左側

Hot Chips 2024 | Tenstorrent的Blackhole獨立AI計算機

[復制鏈接]

425

主題

425

帖子

2924

積分

三級會員

Rank: 3Rank: 3

積分
2924
跳轉到指定樓層
樓主
發(fā)表于 2024-10-14 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
$ N6 a0 M' k$ h6 a0 C本文介紹Tenstorrent公司推出的突破性產(chǎn)品Blackhole。作為一款獨立的AI計算機,Blackhole在人工智能領域展現(xiàn)出強大的潛力[1]。我們將探討其架構、微架構、擴展能力以及軟件生態(tài)系統(tǒng),深入理解這款創(chuàng)新產(chǎn)品的特點和應用前景。9 f, l5 U7 l2 F% J

2 j' `  w6 M$ b: I, Q1 d架構概覽. _  b; w" }1 J
Blackhole代表了Tenstorrent AI硅芯片路線圖的最新一代產(chǎn)品。它在前代產(chǎn)品Grayskull和Wormhole的基礎上,在性能和功能方面都有顯著提升。1 ^7 K! g" W. v( y; j  a. W
- i: ]* y/ @( q5 E3 s: Y: [- v

2 l, h: n4 F* X) ~" A) ?圖1展示了Tenstorrent的AI硅芯片路線圖,清晰地顯示了從Grayskull到Blackhole的演進過程。7 x- h5 u) W$ F7 f" x( Q# G

, }/ R; H  N; b9 k; W$ B0 E) MBlackhole的主要特點包括:& n3 ^+ Z* x) b) A+ z! I
  • 140個Tensix++核心
  • 6納米制造工藝
  • 745 TOPS(FP8)性能
  • 512 GB/s GDDR6內存帶寬
  • PCIe Gen5x16接口
  • 10x400 Gbps以太網(wǎng)連接
  • 16個RISC-V CPU核心
    , T0 z3 J# t2 j$ J# `' X' J

    ; |1 j- p- u# x2 @1 {0 b  @Blackhole的架構旨在為AI工作負載提供全面的解決方案,將高性能計算與高效的數(shù)據(jù)移動和存儲能力相結合。
    2 M) l" j5 w, ]" t( B5 z6 l5 T( k* N

    # L8 k" C: ?! a# v圖2展示了Blackhole的布局,顯示了Tensix核心、DRAM核心、以太網(wǎng)核心、PCIe核心和RISC-V CPU的分布情況。
    ; ^2 E1 {4 \& A* x7 l& e6 u; K" F, `
    微架構:全RISC-V可編程! p4 K0 i9 X4 `+ a/ s
    Blackhole最顯著的特征之一是全RISC-V可編程架構。這一設計選擇為芯片的各個組件提供了靈活性和效率。
    / O9 Q* O$ W3 p$ w4 J3 h9 q, Q
    # ~2 ?4 \* @$ {, e! E, bBaby RISC-V' b$ a4 O9 M! z7 X. F1 v
    Blackhole集成了752個Baby RISC-V核心,每個核心提供:
    : R& i9 I9 @# L
  • 32位計算能力
  • 整數(shù)乘法器和除法器
  • 浮點支持(FP32 / BFLOAT16)
  • 128位向量能力(每個Tensix一個)
  • 4 KB指令緩存
  • 8 KB數(shù)據(jù)暫存內存
    - ]* E. v3 D$ S% \5 N& G. V
    / }1 f; N8 A2 c* n% ?; w' p, V

    , p+ _6 K" ^3 y5 K- r- d
    . j7 a; J% T$ q$ k5 |+ z$ @9 l圖3展示了Baby RISC-V在Blackhole架構中的布局,說明了在計算、數(shù)據(jù)移動和存儲操作中的作用。/ l$ X9 G( c8 ~- x1 ~' B. o

    ' v  |9 _7 Z) uBig RISC-V
    $ }4 x& R2 Y+ r9 s作為Baby RISC-V的補充,Blackhole配備了16個Big RISC-V核心,組織成4個集群,每個集群4個核心。這些核心運行Linux系統(tǒng),作為AI加速器的片上主機。每個Big RISC-V核心包括:! M( G# S/ v  y; G# i) D& P
  • 64位、雙發(fā)射、順序執(zhí)行計算能力
  • 每個CPU 2 MB的L3緩存
  • 每個CPU 128 KB的L2緩存
  • 每個CPU 32 KB的L1 I-緩存(2路組相聯(lián))
  • 每個CPU 32 KB的L1 D-緩存(4路組相聯(lián))/ m  f( G1 h& n$ o, ?5 z5 x8 i& V
    " D8 ?5 B8 X) N9 ]
    Tensix核心:Blackhole的核心
    ) V5 [& m% Z) v  i$ g& h6 nTensix核心是Blackhole的主要計算單元,結合了強大的數(shù)學引擎和靈活的RISC-V可編程性。: i3 ]/ j" ~( L  U5 x+ F, D
    4 [* H. b( q& e3 t/ M! |* G! g

    : Z+ d+ U1 d1 @5 _圖4展示了Tensix核心的布局,顯示了RISC-V核心、路由器和內存的分布。+ v) b+ r5 ^+ Q0 y7 }2 ^  i

    ' C" M6 {  l* u3 d數(shù)據(jù)移動' v5 ]6 g2 g) y! T
    Blackhole在AI數(shù)據(jù)移動模式方面表現(xiàn)出色,在各種操作中提供了令人印象深刻的帶寬:
    - `8 A7 J6 R  \9 C* U  I& S. I
  • SRAM本地/分片:94 TB/s
  • SRAM鄰居(Halo):47 TB/s
  • SRAM行/列/網(wǎng)格多播:24 TB/s
  • SRAM收集/分散(3跳):16 TB/s
  • SRAM收集/分散(10跳):5 TB/s
  • DRAM行:512 GB/s
  • 以太網(wǎng)列:1 TB/s
    ! n$ t3 }! i$ t5 D6 W* K! ^

    ) {$ ?4 u  j+ z" S% ?" m這種優(yōu)化的數(shù)據(jù)移動架構特別適合AI工作負載中常見的矩陣乘法、卷積和分片數(shù)據(jù)布局。
    6 t& k7 Y: j3 c. j. @0 v7 H# W5 f2 r( o% N  r3 |
    計算能力
    6 F" X3 ?2 b0 KTensix核心包含兩個主要的計算引擎:
    3 J7 f. K' u6 f1 |/ t9 {1 S8 u1. Tile數(shù)學引擎(Tile Math Engine):
      L! i6 ]2 s2 J, A  W$ B: n支持多種數(shù)據(jù)格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT8- ]$ x7 c; i7 \$ m- G
    在FP8操作中可提供高達745 TFLOPs的性能
    8 N, x7 n1 c# F  t提供豐富的矩陣指令集架構,包括矩陣乘法、點積、元素級操作和轉置  _; J& S, U" f$ \; v( f3 ]
    * G* s6 @* W1 U/ g  g% V
    2. 向量數(shù)學引擎(Vector Math Engine):9 Z0 E! n* c" j6 v7 F2 N
    支持FP32、INT16和INT32操作
      P! P7 `8 z; q1 n/ W7 _+ o: X4 {提供通用向量指令集架構,用于元素級操作、排序、重排和查找表
    & q! j2 T" s2 u" g2 v' d/ ~' t  k( Z1 |& j! h

    . X4 E8 o0 K% {' p( U圖5展示了Tensix核心的計算能力,顯示了Tile數(shù)學引擎和向量數(shù)學引擎。
    - y; V: O! b% o, q6 k9 N9 c7 u1 P6 n  U! O1 _
    擴展能力
    ' Z" t/ C% M2 EBlackhole的設計考慮了擴展性,利用強大的以太網(wǎng)連接創(chuàng)建大規(guī)模AI系統(tǒng)。
    % k! ^; ~7 {! V) G) K# {% o
    ; m3 W7 T9 X. l 1 @( t' S9 J" C
    圖6展示了Blackhole基于以太網(wǎng)的擴展能力,顯示了多個芯片如何在網(wǎng)格拓撲中連接。
    . B, U( z3 p  b! C1 ^
    8 q, f7 d5 I/ {/ m: MBlackhole Galaxy是一個由32個芯片組成的4x8網(wǎng)格配置,展示了該架構的可擴展性:
    / o- _; k% ^+ E7 m9 i: p5 N
  • Z維度I/O:32 x 200 GB/s
  • Y維度I/O:16 x 200 GB/s
  • X維度I/O:8 x 200 GB/s
  • Galaxy總I/O:11.2 TB/s0 W" _8 G9 F0 J/ C9 u2 j

    % W; a& A/ M6 {! t' f這種擴展能力使Blackhole能夠通過在多個芯片上分配計算來應對最具挑戰(zhàn)性的AI工作負載。8 |) t- z1 p  N1 C9 g

    # d8 R% U# t( Y0 g6 f軟件生態(tài)系統(tǒng):TT-Metalium7 ~' ]0 U) S' r2 \# E
    為了充分利用Blackhole的能力,Tenstorrent開發(fā)了專門為AI和擴展操作構建的軟件框架TT-Metalium。
    6 S5 S) O3 _( |" o7 G2 J. ~0 p4 U0 ]3 Q7 q9 h
    TT-Metalium的主要特點包括:
    : T6 t. L/ J( T! i5 A) @
  • 原生多設備內核和運算符
  • 使用普通C++編程,具有專用的數(shù)據(jù)移動和計算內核API
  • 直接優(yōu)化數(shù)據(jù)移動和計算重疊
  • 完全控制SRAM和DRAM中的數(shù)據(jù)布局和持久性
  • 支持不同核心運行不同內核,核心之間直接數(shù)據(jù)流
  • 原生多設備內核,具有融合和重疊的計算和芯片間通信
    . C& A& B3 R: Q7 W- u
    : L1 X* B/ w+ ~- E: J6 m4 n

    " ]1 o# z0 M, V, E( l4 N$ h
    # C, R! ~# a: h$ v1 V: ?% w1 E圖7比較了TT-Metalium的編程模型與傳統(tǒng)GPU編程,突出了其在AI工作負載方面的優(yōu)勢。
    5 o7 g3 a. ]: L+ B; n; T* p
    ! _8 g" J0 i, \& h$ q3 yTenstorrent還開發(fā)了廣泛的開源軟件生態(tài)系統(tǒng),以支持Blackhole和其他AI加速器:
    9 ]# Q6 w& r% j9 B- G+ p! m4 u
  • TT-Forge:集成到各種框架中,用于原生模型導入
  • TT-MLIR:新的基于MLIR的編譯器
  • TT-NN:優(yōu)化運算符庫,具有ATen覆蓋率和類似PyTorch的API
  • TT-Metalium:低級編程模型和入口點  m, k1 K9 p6 R
    : v; `8 ?. ~. E" i( _

    9 I7 R, s1 Q' J3 [
    * q$ F9 l+ q) {8 L- F+ u) W! A3 b圖8展示了支持Blackhole和其他Tenstorrent產(chǎn)品的全面軟件生態(tài)系統(tǒng)和集成。
    6 ^9 `$ J% S2 Z
    # M0 a) V+ @6 L7 U- t1 T( z% L結論
    . @5 M6 C4 U! d6 p' @Tenstorrent的Blackhole提供了專為現(xiàn)代AI工作負載需求設計的強大、可擴展和靈活的架構。憑借全RISC-V可編程設計、令人印象深刻的計算能力和優(yōu)化的數(shù)據(jù)移動,Blackhole有望加速各個領域的AI研究和應用。# g9 C: i7 P+ f- ^5 @, o% v3 x

    1 b7 P9 s# c7 W' O8 hBlackhole的硬件創(chuàng)新與TT-Metalium軟件生態(tài)系統(tǒng)的結合為開發(fā)人員和研究人員提供了一個全面的平臺,用于推動AI的邊界。隨著該領域的不斷發(fā)展,Tenstorrent的Blackhole已準備好滿足下一代AI模型和應用日益增長的計算需求。9 s6 b4 e: \; g$ A, z3 [3 G
    * U0 c9 {4 ^- `) t% f
    參考文獻
    * r9 F6 E0 D+ A9 n( G+ w. |[1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024.* M9 N) X# {0 }% w; M. ~) V

    4 |8 T/ [4 S0 J/ D. z( W8 U3 k- END -
    6 ^* b5 O1 n4 W, y* b1 G0 j( Q9 Y8 r: @. C9 E. A
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。% {; n8 z% X$ M7 p1 q/ e/ l
    點擊左下角"閱讀原文"馬上申請
    : T) F! [$ T; |) o3 }  j! j5 a7 T
    ; K, c$ `" u4 e歡迎轉載7 C5 e/ R5 d. V; @# j  u6 n+ Y3 p

    3 W. [1 H  H; r( S轉載請注明出處,請勿修改內容和刪除作者信息!7 H( k" c5 ?- g4 X7 l

    1 l* G# u+ t' u8 F; u9 d. O& k; J& L4 J! U0 L+ Y
    # t4 ?/ Y, E+ U. o" R$ E0 m

    ! d; A# _' Q% g9 A4 J; R1 N0 z9 C  u0 k% |
    關注我們
    ! d4 X& g. L; K2 A# ^, e% g0 }' o( K3 K( `; \5 Z) X

    9 w) c# N: C/ F( f, K 8 `7 x8 Z7 T* ^3 \

    ; H9 @. }9 J; e( d
    3 [3 {+ o0 |" K/ a
    ! J: v  k/ c# A2 f0 O$ Z- o3 @& n+ V
    6 U7 c' a$ `1 [# x* h$ U# q
                         
    " g% J3 C0 c  U' [' m* _% p& f) [5 `0 k1 e1 q! c* Y
    3 }5 |1 R0 j2 n  e4 z/ \% K
    7 y4 z7 m0 l" c
    關于我們:
    ; A) Q; F* d5 h; u: s  m" G; Q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。) s, w7 o  p6 s1 h' D1 F

    : Y+ X* h7 l  f) \http://www.latitudeda.com/
    7 d5 b1 \3 h# _1 M, ~' Q6 v( ]* ~(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關注微信 下載APP 返回頂部 返回列表