電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 14|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 大語言模型時代的可持續(xù)AI計算解決方案

[復(fù)制鏈接]

437

主題

437

帖子

3131

積分

四級會員

Rank: 4

積分
3131
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言
- Y8 a% r0 V. |" k$ p5 X  Q0 g在人工智能領(lǐng)域快速發(fā)展的今天,對高效且強(qiáng)大的計算解決方案的需求前所未有地高漲。本文FuriosaAI開發(fā)的RNGD張量收縮處理器,這是突破性技術(shù),旨在應(yīng)對大語言模型(LLMs)和生成式AI時代的可持續(xù)AI計算挑戰(zhàn)。
/ t7 U2 K# U6 s( M3 Z, [  r9 O
% |+ J- T' O& z: }+ N/ B5 C圖1:顯示FuriosaAI成立、RNGD開發(fā)里程碑和首次LLM演示的時間線。  G- k) [' \+ |- B

2 P% n0 m) H; Z& T/ }( g) LRNGD處理器代表了AI加速技術(shù)的重大進(jìn)步。FuriosaAI的使命是"使AI計算可持續(xù),讓地球上的每個人都能接觸到強(qiáng)大的AI"。為實現(xiàn)這一目標(biāo),他們創(chuàng)造了一款在保持能源效率的同時還能提供出色性能的芯片。
0 n! ^4 n$ M( p$ v$ M* r1 q6 |' E7 A
讓我們深入了解RNGD處理器的主要特性:# |5 X$ ?6 [1 l# c
# h+ [* ]# o  \% ]% Y1 R: W
圖2:RNGD處理器的詳細(xì)規(guī)格,包括FLOPS、內(nèi)存容量和功耗。
; B. u4 w/ ~2 i5 i0 O+ w' o2 I( `2 f/ p# P) Z3 h
RNGD擁有512 TFLOPS的計算能力,這是通過8個處理元件實現(xiàn)的,每個元件能夠達(dá)到64 TFLOPS(FP8)。處理器配備了48 GB的內(nèi)存,其中包括256 MB的SRAM,并提供令人印象深刻的384 TB/s片上帶寬。借助兩個HBM3模塊,內(nèi)存帶寬達(dá)到1.5 TB/s。# ~' Y& U% [0 Z5 z
0 s) u  u# n: y( l4 u- M" i
RNGD的突出特點是能夠在150瓦功率范圍內(nèi)處理高性能LLM工作負(fù)載。這使得其適用于空氣冷卻的數(shù)據(jù)中心,有效解決了AI計算中日益增長的能源消耗問題。
/ B& s; G3 G0 c ' w2 h+ e' W5 f. u  i! @2 B$ u3 q1 G
圖3:RNGD芯片架構(gòu)的詳細(xì)視圖,包括SoC和HBM3組件。
- v) r# |2 s$ M9 p4 W$ a1 r0 U, x! v, [+ ^5 f* x9 }
RNGD采用臺積電5nm工藝技術(shù),芯片面積為653 mm2,晶體管數(shù)量達(dá)400億。芯片設(shè)計使用了CoWoS-S(Chip-on-Wafer-on-Substrate with Silicon interposer)封裝技術(shù),這種技術(shù)允許將SoC與兩個HBM3內(nèi)存堆棧集成在一起。
- _; N$ r- x: }+ G% z1 A" s. Y. s) y& t7 r$ L7 l
早期性能數(shù)據(jù)顯示了令人鼓舞的結(jié)果:
* E" ^5 q- G7 ^3 ~, j& B4 o4 \ 3 m0 ]( G$ T8 x+ y
圖4:比較RNGD與NVIDIA L40S、Intel Gaudi 2和Google TPU v5e性能的表格。
; |, ]4 O2 H" `) m' T& q) h
4 e% N5 N* ]' q/ D2 d根據(jù)這些初步基準(zhǔn)測試,在運(yùn)行GPT-J 6B MLPerf基準(zhǔn)測試場景時,RNGD的每瓦性能比NVIDIA L40S高出60%。  \6 A* n$ |5 Q# Z: T' ^0 \( T

# B+ P1 j6 U2 I& U$ J3 K1 \# E3 B1 qRNGD效率的關(guān)鍵在于其創(chuàng)新的張量收縮方法,這是深度學(xué)習(xí)模型中的核心計算。大多數(shù)商用深度學(xué)習(xí)加速器使用固定大小的矩陣乘法作為原語,而RNGD提高了硬件-軟件接口的層次,將整個張量收縮作為原語來加速。
8 u8 }! q! ~' Y$ k 7 w" r, S  V* s2 L% `6 B( Z* [+ J
圖5:圖解說明張量收縮是深度學(xué)習(xí)中的核心計算。, r* \' t" V; B% w. |
4 F/ |5 ^* |3 g5 q, J9 B
這種方法實現(xiàn)了更高的性能和能源效率,同時提供了支持所有深度學(xué)習(xí)模型的靈活性。RNGD引入了低級einsum記法作為原語,將張量收縮與顯式內(nèi)存布局和調(diào)度相結(jié)合。
) \' }$ B! {4 {. g 4 e1 o, [' ~( I0 @: u
圖6:說明RNGD如何將整個張量收縮作為單個原語操作處理。) D/ X1 R$ X* O; k  G8 C( a
# ?8 m; U2 p$ c5 @2 ^' {' N  E
RNGD的架構(gòu)能夠高效地進(jìn)行計算的空間和時間編排,提高了利用率和效率。這對推理任務(wù)尤為重要,因為推理任務(wù)的批處理大小可能會有很大變化。
1 F" C4 _0 i2 U8 X, r+ I, U
& f8 n7 u  S" p- ~圖7:RNGD處理器的詳細(xì)架構(gòu)圖,顯示互連網(wǎng)絡(luò)和處理元件。- Y9 l5 {. h7 U; G( u( L

/ {' b: Z8 w! X/ z2 V為了支持大型模型的多卡配置,RNGD實現(xiàn)了基于PCIe的芯片間通信。這允許通過直接點對點通信減少卡之間的延遲。8 F- D: k8 s; [

' I* d- [# ^" P& i1 T8 @圖8:展示多個RNGD卡與主機(jī)CPU之間基于PCIe的通信圖。
  O4 D) Y. u4 u& ]# ?# K8 }
3 G: E# {1 ^3 L+ qRNGD還支持SR-IOV(Single Root I/O Virtualization)多實例支持和虛擬化,允許虛擬機(jī)使用多達(dá)8個虛擬功能。
0 n" f0 u% H% ~3 X: ~; J9 W+ @/ P/ X' u! i
在軟件方面,F(xiàn)uriosaAI開發(fā)了全面的LLM軟件棧,以充分發(fā)揮RNGD硬件的潛力:. W  Q7 h# Y; N

) |9 l8 q1 y, u6 v圖9:Furiosa LLM軟件棧的圖表,從PyTorch模型到RNGD硬件。5 e- x4 J* O8 x* ~9 b1 U' w' S

3 l7 Y$ B. d2 {/ Q這個軟件棧包括PyTorch 2.0集成、支持各種精度格式(FP8、INT8等)的量化工具包、多卡上的張量/流水線/數(shù)據(jù)并行性、先進(jìn)的DNN編譯器,以及最先進(jìn)的服務(wù)優(yōu)化。
. t8 I2 Z* D: c' f* H! Y
7 J$ L: K! m3 Y* IFuriosa編譯器在實現(xiàn)端到端模型效率方面發(fā)揮著關(guān)鍵作用:
. @+ Z2 e9 }$ M  Z/ \
6 }3 Q9 g% l& P" Q! z+ ?! ?圖10:顯示RNGD上優(yōu)化張量操作的編譯過程流程圖。  _1 w+ Z: S6 n- M  E& y9 L! s

8 @$ l9 R% c4 y# u- h6 ^1 \+ V- k編譯器為給定的降維張量形狀找到最佳策略,使用性能和功率估算器來探索策略空間。此外,還執(zhí)行圖級優(yōu)化,如算子融合和內(nèi)存分配拆分合并調(diào)度。9 v9 h5 c: ~  D. z

8 b8 e) a- j% j* Y, t為了最大化服務(wù)性能,F(xiàn)uriosaAI開發(fā)了實現(xiàn)先進(jìn)優(yōu)化的服務(wù)框架:: A) r% S8 J1 @/ z
; R2 }, Q8 Z! d) G' E" v3 A; s6 N
圖11:Furiosa服務(wù)框架圖,展示其組件和優(yōu)化。
, p3 w* O& Q7 F3 F5 E* Y0 ^" z0 \, ^( i, x' B% e9 F8 G
該框架包括PagedAttention和分塊KV緩存管理,利用Furiosa編譯器和運(yùn)行時進(jìn)行高吞吐量服務(wù),支持連續(xù)批處理。
7 ]3 ~7 v# k! S6 Y4 r$ B; M4 i/ F3 q3 E; C, F, A$ y
為了高效量化,F(xiàn)uriosaAI提供了一個端到端的自動化量化工具:
- s5 _' p/ w0 `0 J: q/ j4 U " w: K% H9 m# h
圖12:Furiosa量化器概覽,這是自動化的基于圖的量化工具。1 F# P' C6 g, o5 W( M4 P) D& s9 h9 C
: i' A) S1 Z! R3 Q5 `+ K/ w
這個工具使用圖模式搜索支持任意定制的LLM模型,并提供各種量化方案,包括BF16、INT8、FP8和INT4選項。
- }* l: B1 o! M+ |2 l  W" p9 l+ z* ]
RNGD的開發(fā)采用了先進(jìn)的方法和工具:
6 }) c1 f  }9 s4 ^ , }; \) d7 R. X6 ^" w" H
圖13:展示RNGD創(chuàng)建過程中使用的先進(jìn)開發(fā)方法的信息圖。
/ W4 @9 S/ v0 y8 k  f; Y5 n- C% B2 w! S6 C9 r1 U* P
這些包括使用Rust和Chisel等高效語言,基于Kubernetes和Tekton CI的可擴(kuò)展工具和基礎(chǔ)設(shè)施,以及復(fù)雜的測試用例生成和驗證流程。
6 ?2 H2 C# L& a3 X
0 a1 s" V. T, h" s. QRNGD張量收縮處理器代表了AI加速器技術(shù)的進(jìn)步。通過專注于可持續(xù)計算并利用創(chuàng)新的硬件和軟件優(yōu)化,F(xiàn)uriosaAI創(chuàng)造了強(qiáng)大的解決方案,適用于大語言模型和生成式AI時代。隨著對高效AI計算需求的持續(xù)增長,像RNGD這樣的技術(shù)將在使先進(jìn)AI能夠應(yīng)用于更廣泛的場景并服務(wù)于更多用戶方面發(fā)揮關(guān)鍵作用。
  \/ P# m7 Z4 U0 W- h0 h( t9 S* N9 R1 I2 Q

  E$ F$ d6 H  X1 n5 a參考文獻(xiàn)) U$ V) D* q( p) U5 _
[1] J. Paik, "RNGD – Tensor Contraction Processor for Sustainable AI Computing," FuriosaAI Inc., 2024.5 b0 P+ X7 d! _6 p" v5 E- g
$ o( K+ U! n- ?
- END -
& i/ e3 V; J/ H( B$ y% x3 V$ \& B
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
: ^( F/ t% L# Y  ~6 l1 t點擊左下角"閱讀原文"馬上申請
  b6 z/ S; G" U* N' c' `* C" o5 n$ W7 o% a+ l7 t
歡迎轉(zhuǎn)載' P% A" i7 O. ^& W6 m! x, ^# u

1 o' I  b' d5 }$ E, j轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!3 K# Q& u* B; M8 U6 ?$ O  w

" D* W" V  M1 J0 t1 B- @! c7 v0 ?8 P' L0 y( U$ r+ J
6 B' Y1 e1 W- G3 L4 K+ U
6 L* X& A+ b" @1 s6 [2 B
: o8 h* O9 p, ^  e/ Q. s1 g1 D
關(guān)注我們% O7 c5 V9 F  v) K8 `) {

$ H2 g$ w9 p" t( J: u+ N/ H

& Q( s& _; }" G' [7 ~4 q3 z' e
- H/ r, `% U( h, M% `2 Y5 @

* D- j3 i7 u) f+ f6 z. u) }: {7 W; I ' X2 c# v) H9 G

' x: e5 z, @( u  C; L' {! u" e- D1 k . @- U/ ^% p, g4 Z
                      5 [, H" O  j. L! F. N

9 h1 O) n/ a! P1 {( n

6 ]' F* k( T) ^9 `% w8 V3 ~/ i9 F" ?6 ^3 P& ?' S* c0 N7 d
關(guān)于我們:
0 X! J! x" k0 z4 y8 }+ j! C; T深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
! u! k. a1 _' s# A6 i5 q
! O" H! w( ~  _( C' B6 d% L4 Ahttp://www.latitudeda.com/- v2 e% @* o8 a
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
回復(fù)

使用道具 舉報

發(fā)表回復(fù)

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則

關(guān)閉

站長推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表