電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 24|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | Tenstorrent的Blackhole獨(dú)立AI計(jì)算機(jī)

[復(fù)制鏈接]

425

主題

425

帖子

2924

積分

三級(jí)會(huì)員

Rank: 3Rank: 3

積分
2924
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-14 08:00:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言
+ s2 R0 @. I! B7 w* j" C. U本文介紹Tenstorrent公司推出的突破性產(chǎn)品Blackhole。作為一款獨(dú)立的AI計(jì)算機(jī),Blackhole在人工智能領(lǐng)域展現(xiàn)出強(qiáng)大的潛力[1]。我們將探討其架構(gòu)、微架構(gòu)、擴(kuò)展能力以及軟件生態(tài)系統(tǒng),深入理解這款創(chuàng)新產(chǎn)品的特點(diǎn)和應(yīng)用前景。, U4 T/ t% f/ a5 `. [

- b% H* k! I" l3 O* F0 O架構(gòu)概覽: R9 Z2 h7 M9 b2 f/ h
Blackhole代表了Tenstorrent AI硅芯片路線圖的最新一代產(chǎn)品。它在前代產(chǎn)品Grayskull和Wormhole的基礎(chǔ)上,在性能和功能方面都有顯著提升。
: g. |5 h% u& }) P
5 h  ]6 Y  V( d$ j& V7 i / Q" u  b" z9 G) K
圖1展示了Tenstorrent的AI硅芯片路線圖,清晰地顯示了從Grayskull到Blackhole的演進(jìn)過(guò)程。& C: w' ?) _( j

9 k9 r! q* m+ _. T) ?Blackhole的主要特點(diǎn)包括:! m! \" q5 H7 G0 Y- T( u0 P5 N# G
  • 140個(gè)Tensix++核心
  • 6納米制造工藝
  • 745 TOPS(FP8)性能
  • 512 GB/s GDDR6內(nèi)存帶寬
  • PCIe Gen5x16接口
  • 10x400 Gbps以太網(wǎng)連接
  • 16個(gè)RISC-V CPU核心
    6 ^" E4 c7 `3 K4 [5 k
    & a5 X4 ~. r2 b3 k$ p
    Blackhole的架構(gòu)旨在為AI工作負(fù)載提供全面的解決方案,將高性能計(jì)算與高效的數(shù)據(jù)移動(dòng)和存儲(chǔ)能力相結(jié)合。: a# e$ ^/ T: ?( i, }
    7 t' i$ F. R$ e: s

    ( E  L# Y  H" m: B  `圖2展示了Blackhole的布局,顯示了Tensix核心、DRAM核心、以太網(wǎng)核心、PCIe核心和RISC-V CPU的分布情況。. D* [. K% b* S+ D- n

    2 _! b+ X- r$ a0 \/ r+ U9 c0 h1 g微架構(gòu):全RISC-V可編程8 V% ]" h! L8 B6 B
    Blackhole最顯著的特征之一是全RISC-V可編程架構(gòu)。這一設(shè)計(jì)選擇為芯片的各個(gè)組件提供了靈活性和效率。
    $ Q0 Y* q6 z( N9 m- f0 F8 s2 k' s& T8 ~5 o+ q6 V7 v
    Baby RISC-V  L4 |3 @- ^9 [2 o* g# y
    Blackhole集成了752個(gè)Baby RISC-V核心,每個(gè)核心提供:( q. \6 [$ @  K0 ?$ i8 ]
  • 32位計(jì)算能力
  • 整數(shù)乘法器和除法器
  • 浮點(diǎn)支持(FP32 / BFLOAT16)
  • 128位向量能力(每個(gè)Tensix一個(gè))
  • 4 KB指令緩存
  • 8 KB數(shù)據(jù)暫存內(nèi)存+ Q+ e! v- m" T' ^4 f$ h; o
    # ~+ Q$ O4 ?2 _& c' f& @1 a( P
    - }- Y4 A" [; b% x/ ^9 Q* x
    ( O' f1 n* u- o; Z$ e
    圖3展示了Baby RISC-V在Blackhole架構(gòu)中的布局,說(shuō)明了在計(jì)算、數(shù)據(jù)移動(dòng)和存儲(chǔ)操作中的作用。
    1 m7 w2 o' v1 N/ a
    8 p* E5 N2 `. _+ g2 qBig RISC-V
    6 l/ i0 f& S# f" b作為Baby RISC-V的補(bǔ)充,Blackhole配備了16個(gè)Big RISC-V核心,組織成4個(gè)集群,每個(gè)集群4個(gè)核心。這些核心運(yùn)行Linux系統(tǒng),作為AI加速器的片上主機(jī)。每個(gè)Big RISC-V核心包括:) Y3 x% q7 P$ ~$ ^
  • 64位、雙發(fā)射、順序執(zhí)行計(jì)算能力
  • 每個(gè)CPU 2 MB的L3緩存
  • 每個(gè)CPU 128 KB的L2緩存
  • 每個(gè)CPU 32 KB的L1 I-緩存(2路組相聯(lián))
  • 每個(gè)CPU 32 KB的L1 D-緩存(4路組相聯(lián))
      v4 C9 L/ A7 U: {# E2 }
    9 |' Q, J, e9 Z
    Tensix核心:Blackhole的核心) A  T9 D* u6 M3 L4 n% l% J9 e
    Tensix核心是Blackhole的主要計(jì)算單元,結(jié)合了強(qiáng)大的數(shù)學(xué)引擎和靈活的RISC-V可編程性。- @& F7 z) W3 ?! v/ V( S( M
    9 m2 V9 D& W* d( Q% Y7 ?" P
    5 S; _5 ~) g* Y
    圖4展示了Tensix核心的布局,顯示了RISC-V核心、路由器和內(nèi)存的分布。
    ! O! D5 W9 t8 H2 ~
    / |, G0 ?0 D! G2 v, o數(shù)據(jù)移動(dòng)$ h) b4 O- X* T1 ?. A2 h, g
    Blackhole在AI數(shù)據(jù)移動(dòng)模式方面表現(xiàn)出色,在各種操作中提供了令人印象深刻的帶寬:
    # D* H( Z1 y. O* Q
  • SRAM本地/分片:94 TB/s
  • SRAM鄰居(Halo):47 TB/s
  • SRAM行/列/網(wǎng)格多播:24 TB/s
  • SRAM收集/分散(3跳):16 TB/s
  • SRAM收集/分散(10跳):5 TB/s
  • DRAM行:512 GB/s
  • 以太網(wǎng)列:1 TB/s5 ~9 ^! ^  w; X( D. d3 `, I
    ' F* s: ?7 p8 V& ^& \" s5 E
    這種優(yōu)化的數(shù)據(jù)移動(dòng)架構(gòu)特別適合AI工作負(fù)載中常見(jiàn)的矩陣乘法、卷積和分片數(shù)據(jù)布局。
    . n3 G; ]9 K5 T
    * f" Y- E+ c, N計(jì)算能力! g2 \  s. x4 I" x. G9 Q. @
    Tensix核心包含兩個(gè)主要的計(jì)算引擎:7 v3 e7 ?: N5 q' m( r
    1. Tile數(shù)學(xué)引擎(Tile Math Engine):0 ?3 o/ B9 t. F. Z! P
    支持多種數(shù)據(jù)格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT88 l% Y; J. ^. d: j3 x
    在FP8操作中可提供高達(dá)745 TFLOPs的性能
    1 M. t2 q. S/ f( f提供豐富的矩陣指令集架構(gòu),包括矩陣乘法、點(diǎn)積、元素級(jí)操作和轉(zhuǎn)置3 Q" W& r4 E) F  U& w

    1 U7 @0 i! A' L/ m/ t) m. w  y3 n2. 向量數(shù)學(xué)引擎(Vector Math Engine):
    : `7 X9 M7 P5 E; E$ M; m# A支持FP32、INT16和INT32操作
    3 ?0 M- ^; ]5 ^6 r5 L提供通用向量指令集架構(gòu),用于元素級(jí)操作、排序、重排和查找表
    7 Q& n* e8 |- f3 ?+ F6 }
    $ O( c. X) r* N5 l
    ' s2 K  W$ f4 |9 c) v! q( W圖5展示了Tensix核心的計(jì)算能力,顯示了Tile數(shù)學(xué)引擎和向量數(shù)學(xué)引擎。, f3 Q) Y* W9 G0 X; x' l
    3 \8 r0 Z3 i( z0 c. O
    擴(kuò)展能力
    5 s; k/ D/ h- DBlackhole的設(shè)計(jì)考慮了擴(kuò)展性,利用強(qiáng)大的以太網(wǎng)連接創(chuàng)建大規(guī)模AI系統(tǒng)。
    ' n2 C0 J; h" I! h6 l" l' e+ f! n4 T  e
    ; R* Z4 C1 O, k1 D 5 N3 y5 n" _/ F* l9 W5 o
    圖6展示了Blackhole基于以太網(wǎng)的擴(kuò)展能力,顯示了多個(gè)芯片如何在網(wǎng)格拓?fù)渲羞B接。* F' Y6 g1 Y( l; O4 h/ x8 h% t% p
    5 m' ~( ], A0 k
    Blackhole Galaxy是一個(gè)由32個(gè)芯片組成的4x8網(wǎng)格配置,展示了該架構(gòu)的可擴(kuò)展性:
    ' `3 i5 U0 v6 I5 C6 o3 l
  • Z維度I/O:32 x 200 GB/s
  • Y維度I/O:16 x 200 GB/s
  • X維度I/O:8 x 200 GB/s
  • Galaxy總I/O:11.2 TB/s
    * O/ L- H0 |: w; S5 Z  l( ?

    + L$ W/ b1 u1 @, s1 G這種擴(kuò)展能力使Blackhole能夠通過(guò)在多個(gè)芯片上分配計(jì)算來(lái)應(yīng)對(duì)最具挑戰(zhàn)性的AI工作負(fù)載。
    % t+ v$ Z, [0 i' s; p! {) A1 l  I4 ~3 X( x, x2 G
    軟件生態(tài)系統(tǒng):TT-Metalium4 k% ?1 V8 u7 r7 L# E- M& i7 Q. \. i
    為了充分利用Blackhole的能力,Tenstorrent開(kāi)發(fā)了專門為AI和擴(kuò)展操作構(gòu)建的軟件框架TT-Metalium。
    4 A0 J) ^/ V! M) a0 }3 c  x
    7 {- r/ b9 U: b7 B+ d0 P& S" ]: o  oTT-Metalium的主要特點(diǎn)包括:
      m0 k$ x- l. \5 e5 U4 {
  • 原生多設(shè)備內(nèi)核和運(yùn)算符
  • 使用普通C++編程,具有專用的數(shù)據(jù)移動(dòng)和計(jì)算內(nèi)核API
  • 直接優(yōu)化數(shù)據(jù)移動(dòng)和計(jì)算重疊
  • 完全控制SRAM和DRAM中的數(shù)據(jù)布局和持久性
  • 支持不同核心運(yùn)行不同內(nèi)核,核心之間直接數(shù)據(jù)流
  • 原生多設(shè)備內(nèi)核,具有融合和重疊的計(jì)算和芯片間通信9 e5 h, A+ o- F
    3 r! w0 R2 a- C; i1 O7 O' M
    $ e+ z! f% p9 J) }: y$ [2 S0 ?3 q
    / ^2 A8 a) h& u& m' C( b3 M4 j4 `6 Q2 ?
    圖7比較了TT-Metalium的編程模型與傳統(tǒng)GPU編程,突出了其在AI工作負(fù)載方面的優(yōu)勢(shì)。
    * E  W7 h2 @2 r$ R2 d% H% ~5 N3 e+ o( S* j- X
    Tenstorrent還開(kāi)發(fā)了廣泛的開(kāi)源軟件生態(tài)系統(tǒng),以支持Blackhole和其他AI加速器:: v9 O: K- v) N3 r
  • TT-Forge:集成到各種框架中,用于原生模型導(dǎo)入
  • TT-MLIR:新的基于MLIR的編譯器
  • TT-NN:優(yōu)化運(yùn)算符庫(kù),具有ATen覆蓋率和類似PyTorch的API
  • TT-Metalium:低級(jí)編程模型和入口點(diǎn)
    5 w7 X. P5 c: w
    ; F# w. K0 o- \* l# r5 ~- f

    ! S$ S+ V( B" D( F/ X5 n$ |
    4 q% F6 _& m2 [3 X" e圖8展示了支持Blackhole和其他Tenstorrent產(chǎn)品的全面軟件生態(tài)系統(tǒng)和集成。
    4 T7 C6 {1 `$ N
    2 }( p$ C3 ~8 R/ Y& _1 F5 G. I結(jié)論
    , n( y5 }$ N; r7 X2 w% c7 |! x( @( Y2 PTenstorrent的Blackhole提供了專為現(xiàn)代AI工作負(fù)載需求設(shè)計(jì)的強(qiáng)大、可擴(kuò)展和靈活的架構(gòu)。憑借全RISC-V可編程設(shè)計(jì)、令人印象深刻的計(jì)算能力和優(yōu)化的數(shù)據(jù)移動(dòng),Blackhole有望加速各個(gè)領(lǐng)域的AI研究和應(yīng)用。
    ! H+ a0 ?3 h( [, |5 f0 e$ V
    * n5 i) U3 v! ]. lBlackhole的硬件創(chuàng)新與TT-Metalium軟件生態(tài)系統(tǒng)的結(jié)合為開(kāi)發(fā)人員和研究人員提供了一個(gè)全面的平臺(tái),用于推動(dòng)AI的邊界。隨著該領(lǐng)域的不斷發(fā)展,Tenstorrent的Blackhole已準(zhǔn)備好滿足下一代AI模型和應(yīng)用日益增長(zhǎng)的計(jì)算需求。
    ! ^- }" j' s9 J5 T2 S, A6 C1 ]/ H
    " Z2 @! w+ `+ E( k2 @3 r0 q- g參考文獻(xiàn)2 N8 C2 @# Y( D
    [1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024.
    % y; e# j$ Q& ~8 I# G
      I' Y' y- z9 |* j/ v& k6 g9 J0 y! ^- END -  a( \( j! F. Q

    # c( Q' f5 r/ \6 v9 l* \7 G軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    % G# w! G/ D' H* I; U1 E! a% X點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)3 |, b* V' _5 H0 b- Z/ t# f. w7 P

    # Q6 h( @% \1 e* v3 a/ q& I* Z歡迎轉(zhuǎn)載
    ' u% R& s0 J; H9 n( r$ X- I% n2 o7 b. s" p" h* X  E
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!1 e- ?4 R( V0 l4 B" I

    3 r& P: ]' X% D3 _% ]
    9 k0 |& Q' V% {* ]2 q, N3 R, ^" R7 y  ]
    ) @8 k' X9 A3 ]' O# _
    * L* Z/ Z! x9 V0 {; J# Q
    ) {# D2 h" a- \7 i# Y* M
    關(guān)注我們
    # e9 Z# t( o7 a3 Q6 t2 I
    * }$ N3 ~5 l  U

    : Y; K3 k& s) D) u. x . G/ Q& `- W- [& C4 M
    7 X4 k: G9 l- |; C3 J3 _6 h

    " N4 U3 ^! `5 Q0 M9 g

    . L& b9 _  W$ u7 n 6 `5 x7 S7 b+ H) f1 G* q5 o
                         
    ! F  }- l% R; G& A8 V7 q" R7 e. ]) D5 O( S. V

    3 P. z, R* }! J$ t/ I; O; j7 x1 k
    4 a! Y0 B% w' J; ~1 r關(guān)于我們:4 Z/ _5 w8 g+ e/ |2 N; r
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。6 X; \$ W! k* G& \
    2 @& q  ~; ~  }/ R
    http://www.latitudeda.com/- y3 z6 V. g5 ^+ [4 R
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長(zhǎng)推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表