電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 26|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | Tenstorrent的Blackhole獨立AI計算機

[復(fù)制鏈接]

425

主題

425

帖子

2924

積分

三級會員

Rank: 3Rank: 3

積分
2924
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-14 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
: A, o0 a+ c1 W8 r  Z7 p本文介紹Tenstorrent公司推出的突破性產(chǎn)品Blackhole。作為一款獨立的AI計算機,Blackhole在人工智能領(lǐng)域展現(xiàn)出強大的潛力[1]。我們將探討其架構(gòu)、微架構(gòu)、擴展能力以及軟件生態(tài)系統(tǒng),深入理解這款創(chuàng)新產(chǎn)品的特點和應(yīng)用前景。
8 r8 U/ O9 ]/ Z* q5 ]
, @) \& a7 S6 H9 V3 b+ @6 q架構(gòu)概覽
! b, }; r8 H. EBlackhole代表了Tenstorrent AI硅芯片路線圖的最新一代產(chǎn)品。它在前代產(chǎn)品Grayskull和Wormhole的基礎(chǔ)上,在性能和功能方面都有顯著提升。, J) u" _; l& M$ J4 t7 u7 m

- `8 T: z7 o4 v' y$ ]0 V ' q9 w+ y* O1 r- m9 N) b
圖1展示了Tenstorrent的AI硅芯片路線圖,清晰地顯示了從Grayskull到Blackhole的演進過程。% ~+ B6 R/ s! D& a( Y
9 ?) R  l7 K  i6 k. G6 ]3 F% g. D
Blackhole的主要特點包括:( S1 z8 M, E) n, B, p6 I
  • 140個Tensix++核心
  • 6納米制造工藝
  • 745 TOPS(FP8)性能
  • 512 GB/s GDDR6內(nèi)存帶寬
  • PCIe Gen5x16接口
  • 10x400 Gbps以太網(wǎng)連接
  • 16個RISC-V CPU核心2 H" F% L; F4 [0 F) ~  h
    ' I, a3 W( H" P9 S8 g3 N0 V; A
    Blackhole的架構(gòu)旨在為AI工作負載提供全面的解決方案,將高性能計算與高效的數(shù)據(jù)移動和存儲能力相結(jié)合。
    8 O% N! u6 f" C& k+ D
    7 a5 ?; p8 }% e. S' e3 \  ]
    " W- P. z0 Q8 m圖2展示了Blackhole的布局,顯示了Tensix核心、DRAM核心、以太網(wǎng)核心、PCIe核心和RISC-V CPU的分布情況。2 i. @3 c( f/ V

    ! h7 T( ~) N! s9 ^! @9 s4 ^微架構(gòu):全RISC-V可編程6 z+ Q/ \) x& H7 b9 O9 r
    Blackhole最顯著的特征之一是全RISC-V可編程架構(gòu)。這一設(shè)計選擇為芯片的各個組件提供了靈活性和效率。
    , W4 C" t4 A+ p/ Z1 X7 \
    1 m7 Y8 P0 ?9 X# A! F  e  J/ V9 K9 Y' bBaby RISC-V
    0 d7 k: O# T; f9 R# _! l3 |0 B4 UBlackhole集成了752個Baby RISC-V核心,每個核心提供:
    ) A( y0 F( |* @! x2 [* z, I2 b
  • 32位計算能力
  • 整數(shù)乘法器和除法器
  • 浮點支持(FP32 / BFLOAT16)
  • 128位向量能力(每個Tensix一個)
  • 4 KB指令緩存
  • 8 KB數(shù)據(jù)暫存內(nèi)存
    + {% K  q4 ]( U

    + m% k* p9 q/ u* W  y5 V1 T1 S) u+ |( _: a- |  Z  e! a8 N/ s

    7 p) B" k$ s; y: v( p% l' I圖3展示了Baby RISC-V在Blackhole架構(gòu)中的布局,說明了在計算、數(shù)據(jù)移動和存儲操作中的作用。
    " ~% M$ w5 S) |) I' h/ ]! X+ K# O' k
    Big RISC-V
    : ], v; h1 c  e0 a) O' B# [0 @3 A" f0 V作為Baby RISC-V的補充,Blackhole配備了16個Big RISC-V核心,組織成4個集群,每個集群4個核心。這些核心運行Linux系統(tǒng),作為AI加速器的片上主機。每個Big RISC-V核心包括:
    ( J0 N8 P! W& j# |, D
  • 64位、雙發(fā)射、順序執(zhí)行計算能力
  • 每個CPU 2 MB的L3緩存
  • 每個CPU 128 KB的L2緩存
  • 每個CPU 32 KB的L1 I-緩存(2路組相聯(lián))
  • 每個CPU 32 KB的L1 D-緩存(4路組相聯(lián))
    2 Z# S  B! ~! l3 ^

    % ?7 F1 M* ~( ]- j* i# i( A6 ETensix核心:Blackhole的核心
    / W% s+ [* L0 j! U  ~4 ~6 H( _8 LTensix核心是Blackhole的主要計算單元,結(jié)合了強大的數(shù)學(xué)引擎和靈活的RISC-V可編程性。& R( V, A- \$ l' T5 c; O3 s) B

    0 a0 K* M6 q. a# t; q4 Z 4 c" x# ~0 Q& {
    圖4展示了Tensix核心的布局,顯示了RISC-V核心、路由器和內(nèi)存的分布。
    / F# h- }* X  l: q9 h
    + l" ]  y8 r9 y" V! L, K數(shù)據(jù)移動* O' {1 T, K- r0 G( o0 o
    Blackhole在AI數(shù)據(jù)移動模式方面表現(xiàn)出色,在各種操作中提供了令人印象深刻的帶寬:
    * A* N, x1 F" [' [+ k. H% ~
  • SRAM本地/分片:94 TB/s
  • SRAM鄰居(Halo):47 TB/s
  • SRAM行/列/網(wǎng)格多播:24 TB/s
  • SRAM收集/分散(3跳):16 TB/s
  • SRAM收集/分散(10跳):5 TB/s
  • DRAM行:512 GB/s
  • 以太網(wǎng)列:1 TB/s
    ! C# Q: L/ w. T" W4 }& n
      a: z9 L1 Q. x+ `0 s
    這種優(yōu)化的數(shù)據(jù)移動架構(gòu)特別適合AI工作負載中常見的矩陣乘法、卷積和分片數(shù)據(jù)布局。
    8 a3 w( u7 i9 i' k; V" q# @' ^& ]' i( R
    計算能力9 H0 J4 G2 F0 H: |- }
    Tensix核心包含兩個主要的計算引擎:( @) U) n6 {% s; C9 n( ?- j
    1. Tile數(shù)學(xué)引擎(Tile Math Engine):# G; x. Q( Y; C( N  R5 j8 K
    支持多種數(shù)據(jù)格式,包括FP2、FP4、FP8、BFLOAT16、TF32和INT80 G0 H- D5 U" T& l
    在FP8操作中可提供高達745 TFLOPs的性能
    8 J; s& d6 k3 d1 Z8 l9 X, i提供豐富的矩陣指令集架構(gòu),包括矩陣乘法、點積、元素級操作和轉(zhuǎn)置3 n5 x( p, @0 \/ K' a  T4 |, K; X: v$ z

    * s  O4 _( [9 }* d, e! f' `: n2. 向量數(shù)學(xué)引擎(Vector Math Engine):
    9 O/ b& L  a1 Y: Y3 J( m支持FP32、INT16和INT32操作
    4 K# o4 |$ u9 H' b提供通用向量指令集架構(gòu),用于元素級操作、排序、重排和查找表
    * Q  }" G# |7 q$ d( ^0 g7 |
    5 Z7 C+ @, k. F5 P6 o ( `) @: n7 T% i5 X& T' _# k
    圖5展示了Tensix核心的計算能力,顯示了Tile數(shù)學(xué)引擎和向量數(shù)學(xué)引擎。
    7 G2 g# h+ o; X8 n
    % ^6 }: d' `$ s/ u  L3 k' q" l擴展能力( _0 i7 i; f& F- H) \/ U( x
    Blackhole的設(shè)計考慮了擴展性,利用強大的以太網(wǎng)連接創(chuàng)建大規(guī)模AI系統(tǒng)。" d' x& m" ?: m' ~- u) }
    ) v2 _# i  G" b0 l. Q! Z
    3 G( m: k1 S8 r- R* l( Z
    圖6展示了Blackhole基于以太網(wǎng)的擴展能力,顯示了多個芯片如何在網(wǎng)格拓撲中連接。9 q4 I1 i5 A) k$ R" I9 D# ~

    ! o" w8 X- r1 @2 f0 N. KBlackhole Galaxy是一個由32個芯片組成的4x8網(wǎng)格配置,展示了該架構(gòu)的可擴展性:% T! W2 ]9 h8 c  a- y
  • Z維度I/O:32 x 200 GB/s
  • Y維度I/O:16 x 200 GB/s
  • X維度I/O:8 x 200 GB/s
  • Galaxy總I/O:11.2 TB/s
    + n9 N/ T& ?1 ]% s/ z5 W& A* t( ^; H
    4 a9 |% R& u5 @4 u8 ^$ K' y
    這種擴展能力使Blackhole能夠通過在多個芯片上分配計算來應(yīng)對最具挑戰(zhàn)性的AI工作負載。& O' G3 G4 v: T. u8 k* k( B6 t4 L3 Q
    * X& F' k# ]8 T- S
    軟件生態(tài)系統(tǒng):TT-Metalium, G; e8 ~% P6 F& c9 j* Z
    為了充分利用Blackhole的能力,Tenstorrent開發(fā)了專門為AI和擴展操作構(gòu)建的軟件框架TT-Metalium。' Y4 u  g2 q) v- {, K

    , G- R1 A* z6 Q$ u9 h2 ~, tTT-Metalium的主要特點包括:
    & |6 e9 }2 Z% X" n7 g
  • 原生多設(shè)備內(nèi)核和運算符
  • 使用普通C++編程,具有專用的數(shù)據(jù)移動和計算內(nèi)核API
  • 直接優(yōu)化數(shù)據(jù)移動和計算重疊
  • 完全控制SRAM和DRAM中的數(shù)據(jù)布局和持久性
  • 支持不同核心運行不同內(nèi)核,核心之間直接數(shù)據(jù)流
  • 原生多設(shè)備內(nèi)核,具有融合和重疊的計算和芯片間通信
    9 X( e! h8 C/ ?& g
    5 t7 ]0 K9 R% d- l' P$ E5 z
    . v1 D6 `/ @+ t

    0 T" }% y& h% D& w圖7比較了TT-Metalium的編程模型與傳統(tǒng)GPU編程,突出了其在AI工作負載方面的優(yōu)勢。
    : R" T& ]% Q6 O) O3 ^) V6 x) |5 b; ~0 P3 x
    Tenstorrent還開發(fā)了廣泛的開源軟件生態(tài)系統(tǒng),以支持Blackhole和其他AI加速器:' N6 ]* c" k5 i, {
  • TT-Forge:集成到各種框架中,用于原生模型導(dǎo)入
  • TT-MLIR:新的基于MLIR的編譯器
  • TT-NN:優(yōu)化運算符庫,具有ATen覆蓋率和類似PyTorch的API
  • TT-Metalium:低級編程模型和入口點. L# ?8 Y) @" X. i5 o

    + U: a( ]3 U. {; O& I. I6 W4 X
    1 `2 f: [0 m) r* S4 k + b0 {5 d9 O3 B
    圖8展示了支持Blackhole和其他Tenstorrent產(chǎn)品的全面軟件生態(tài)系統(tǒng)和集成。: T, {2 r0 M1 h! h. w! V  S
    ) A! D8 E$ a5 p7 H# S
    結(jié)論
    # F  |& K. x3 i1 L. \  V& y6 p; y9 pTenstorrent的Blackhole提供了專為現(xiàn)代AI工作負載需求設(shè)計的強大、可擴展和靈活的架構(gòu)。憑借全RISC-V可編程設(shè)計、令人印象深刻的計算能力和優(yōu)化的數(shù)據(jù)移動,Blackhole有望加速各個領(lǐng)域的AI研究和應(yīng)用。7 Y' J9 P  V8 M$ ?, r2 B3 U/ O, y
    & F1 p7 N2 {/ V$ ^
    Blackhole的硬件創(chuàng)新與TT-Metalium軟件生態(tài)系統(tǒng)的結(jié)合為開發(fā)人員和研究人員提供了一個全面的平臺,用于推動AI的邊界。隨著該領(lǐng)域的不斷發(fā)展,Tenstorrent的Blackhole已準備好滿足下一代AI模型和應(yīng)用日益增長的計算需求。
    ) @6 R* c1 P" K! |' \, }3 |: ~1 J9 l1 @8 s- I. y# Z0 ~
    參考文獻* N& c! N1 n. S! {% I# j
    [1] J. Vasiljevic and D. Capalija, "Blackhole & TT-Metalium: The Standalone AI Computer and its Programming Model," Aug. 2024./ \+ a, Z: q2 y/ `) a7 D

    9 ~. L! d7 J! [" M* e- w- END -
    8 N: ]) \- N0 K0 z8 M% Y
    ! v" X" F- \7 ~軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    ) M+ u+ R) @2 j$ a- |點擊左下角"閱讀原文"馬上申請
    ( H: C7 z9 V% r' H; f1 f: D4 J; Y5 a
    / O" b. x  K8 q歡迎轉(zhuǎn)載5 b. t2 W( h: C% s$ \' F; N

    # o6 u: T0 t7 ?7 F' n4 Z轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    % h( |' }) X: }  O+ t2 u
    : F) ]+ o- U# j; |3 t1 z+ W# u2 _4 C! ?# Z1 @5 u: }$ U/ q. O

    ' E6 C$ x% \6 z0 t4 Z
    ( u, H/ w4 T" d; k0 M2 K' F5 n5 _1 f0 H
    關(guān)注我們1 Q6 e$ |) y7 l- M

    + P6 r( J7 ^9 x
    . T3 x3 w0 @; i! U$ N1 r/ U
    - M" M; w* s& O
    , |$ \" I  G# d& F% g1 G. I! l
    ! k7 i6 U+ Q0 }( [- M
      ?8 C# n* h! x3 |3 _7 I! o) @
    4 d) e2 }( A8 m: Q" U
                         
    " K) w4 t. E7 i7 W4 E& E1 L2 b3 J' s

    - H' C) d/ X$ ~
    * J* V9 }" ~6 l' [% V  i4 q8 E5 z關(guān)于我們:
    8 C9 p; p; C) _9 U深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。9 d3 _- k6 |( Q' O/ a7 @
    " \$ S3 U2 Q* H/ {8 y
    http://www.latitudeda.com/
    ; I' H& ?. t# p" {(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表