|
引言$ b% J- k: C7 |( g( v- k, g
在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對(duì)高效且可持續(xù)的計(jì)算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長(zhǎng),需要能夠處理這些任務(wù)同時(shí)最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計(jì)算的挑戰(zhàn)[1]。3 s% z( n1 r3 L. y8 F
5 K- C. I. @6 S* Z- u
處理器設(shè)計(jì)的范式轉(zhuǎn)變
; M* y& g* T- v V% b$ F1 c; L5 [7 N傳統(tǒng)的處理器設(shè)計(jì)技術(shù)在滿(mǎn)足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線(xiàn)程等方法。相反,它專(zhuān)注于功率優(yōu)化、一致的性能和線(xiàn)性核心擴(kuò)展。! F+ a% L3 I% h8 @8 C
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
uq1nz3ceyd3640112469142.png
7 小時(shí)前 上傳
5 F& Z/ i: k* d0 p1 _圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線(xiàn)性核心擴(kuò)展的重點(diǎn)。
6 F: [6 n- f, D1 |3 a; i5 d1 A& H# l' Q: S6 J
AmpereOne路線(xiàn)圖:持續(xù)創(chuàng)新的承諾
# r, B$ n7 {0 X: V6 f2 g9 FAmpereOne的產(chǎn)品路線(xiàn)圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計(jì)算提供每機(jī)架最佳性能。路線(xiàn)圖從當(dāng)前的AmpereOne系列開(kāi)始,具有高達(dá)192個(gè)核心的5nm工藝,一直延伸到未來(lái)的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個(gè)核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。
7 T* k4 L: J; p" E
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
nxxxdumrr4p640112469242.png
7 小時(shí)前 上傳
, n2 x6 H0 }' z$ s, Q
圖2展示了AmpereOne的產(chǎn)品路線(xiàn)圖,展示了從當(dāng)前型號(hào)到未來(lái)迭代的發(fā)展過(guò)程,核心數(shù)量不斷增加,功能不斷先進(jìn)。
8 x* \" S1 N6 e7 ~+ p& b$ ^/ K+ X6 w) I( i6 w
深入了解AmpereOne核心
2 e* G8 j3 h% JAmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計(jì)。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
( B& ]# u1 o& w/ W0 T v& \1 \
8 R! u' @, w) s. `1. 前端1 O# F6 ` e1 H( F% {" I4 Z& r. P
最先進(jìn)的分支預(yù)測(cè)解耦的預(yù)測(cè)和獲取流水線(xiàn)用于大代碼足跡的高帶寬接口2 `; k1 g: g' }1 @
, n) N; s5 j1 R2 n4 k1 C* p& m2. 執(zhí)行" y9 G* i$ B1 ^
8個(gè)調(diào)度器供給12個(gè)執(zhí)行管道對(duì)稱(chēng)的整數(shù)和FP/矢量執(zhí)行管道通過(guò)單uop int8 MMLA支持AI推理吞吐量
9 ?$ p4 i7 n3 ?9 i" x% ]& W0 G" s$ b' r" v. t. I
3. 加載存儲(chǔ)單元- D& g8 n9 D8 V
64KB,4路寫(xiě)直通DL1緩存4周期整數(shù)加載使用延遲從零開(kāi)始的熔斷保護(hù)
& Y7 m3 H8 C0 d8 }! d) G0 P
) S: R& O. b( h* u" B- {/ X2 K( A4. 內(nèi)存管理
3 u8 E3 J, Y; F3 d5 e7 m# E支持任何頁(yè)面大小的通用TLB條目用于頁(yè)面遍歷的專(zhuān)用L2接口優(yōu)化的TLB維護(hù)響應(yīng)時(shí)間
4 O0 D" t' |# a! X# I1 h b M- i" L# [( D! F# Y
5. L2緩存
# Q9 _+ _) z% ?) v2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請(qǐng)求率和預(yù)取的自適應(yīng)節(jié)流
8 F& `1 c8 l$ Y" e, T5 G- k \8 P7 ?! @' e* k
' {; q( G$ d- W) T4 A# b
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
yjgwmsbkfv5640112469343.png
7 小時(shí)前 上傳
. y" y- Z/ L% [, h! \* p2 r2 Y圖3概述了AmpereOne核心流水線(xiàn),突出顯示了各個(gè)組件及其互連。1 p2 d# y+ q( F2 q$ P" {6 K' P
B& D! q6 f4 v- _9 o- mAmpereOne的分解架構(gòu)& a3 d- |- e1 \, B4 Z
AmpereOne的一個(gè)關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計(jì)算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個(gè)芯片使用最合適的制程制造。然后,這些組件通過(guò)Ampere的自定義芯片間(D2D)互連連接,每個(gè)方向能夠達(dá)到2.8TB/s的帶寬。& [0 w4 |5 Q0 r+ _" E( W# y. ^6 H
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
mcccjpnso5p640112469443.png
7 小時(shí)前 上傳
# o Z/ u2 m7 ]+ P5 ]/ }
圖4展示了AmpereOne的分解架構(gòu),顯示了計(jì)算、內(nèi)存和PCIe組件如何分離和互連。- w b# Q* d1 a% C% R$ U2 `
: H( w' b: e. r, ~; r9 t& ~0 o$ M
這種靈活的架構(gòu)允許:
( V/ g0 q/ u2 J# L0 {使用相同的構(gòu)建塊實(shí)現(xiàn)8通道和12通道設(shè)計(jì)快速集成客戶(hù)IP定制以滿(mǎn)足獨(dú)特的客戶(hù)I/O和內(nèi)存需求3 T" \1 a* V! w) F" v
" | N6 w- B" q6 @增強(qiáng)安全性和性能的先進(jìn)功能
$ V' T: m9 k8 Y& O3 N內(nèi)存標(biāo)記
7 E" G5 R9 q) r2 A+ {# u9 MAmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測(cè)指針編程錯(cuò)誤并減輕利用內(nèi)存安全漏洞的攻擊。5 u# S' k, @' u* @% k
/ f! D8 ]4 A }; ^8 F
內(nèi)存標(biāo)記的關(guān)鍵方面:
7 a0 r2 s4 D: G每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"指針在地址的高位攜帶"訪(fǎng)問(wèn)標(biāo)記"核心對(duì)每次內(nèi)存訪(fǎng)問(wèn)檢查"訪(fǎng)問(wèn)標(biāo)記 = 分配標(biāo)記"不匹配會(huì)導(dǎo)致故障并阻止數(shù)據(jù)訪(fǎng)問(wèn)+ ^6 n8 x9 b i* X' D* d$ ^
: q Q% c7 ]; `" p% i2 z
. r5 j" n G( x! H1 I( d/ U9 n
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
nlqco5wqc1y640112469543.png
7 小時(shí)前 上傳
# i' B- \! @/ i; K$ a4 T, [* @+ H! k圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。8 L! u/ h- W+ K4 b) O
1 i6 n! V4 \. R
自適應(yīng)流量管理
) _5 \' {7 L' c- x* W8 [$ ?7 t為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對(duì)于最小化運(yùn)行間變異和獨(dú)立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。
5 U8 {4 a1 F, l: N, a2 t& ?, d$ M* y; a& W" d
運(yùn)行原理:
/ j9 x' Q6 v1 u, T* _$ s內(nèi)存服務(wù)代理通報(bào)"繁忙"程度核心相應(yīng)地修改請(qǐng)求流量的速率和配置針對(duì)不同工作負(fù)載行為的自適應(yīng)響應(yīng)
! g/ g8 T' S' f1 c K# m h, l% \4 `9 u4 L/ z) Z
# k7 [. F3 z# D/ U: \+ Y
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
jhtr4ttesbk640112469643.png
7 小時(shí)前 上傳
( \- ?; c1 p2 g( m圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。! s/ r. G3 @- P! ^1 b W$ s
. J+ W# S1 P% y" c: A9 Y性能領(lǐng)先地位
% s$ n z8 o$ ^AmpereOne在各種基準(zhǔn)測(cè)試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
' {+ ~# h- d0 n9 D. Z% z# R8 ]; g* x( k$ W! D2 D% ~
1. SPECrate 2017_int_base:
7 Y% R3 R" J3 I1 |# p7 j8 F' @2 P! y每機(jī)架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%
8 b7 m9 z) L6 J+ ?( g5 J6 l3 ~/ b
1 m+ V; z, @2 i0 w4 H( ^+ s/ u0 p% J7 H( F7 ]+ [) o* H0 h2 H$ W
qpe3xbxt5lh640112469743.png (161.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
qpe3xbxt5lh640112469743.png
7 小時(shí)前 上傳
4 p" B: b- a1 ]2 `' I9 D5 o, Y
圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測(cè)試中的每機(jī)架性能和每瓦性能。( S4 x1 C6 L. e) n
! [ [6 }, x' Y2 S1 V( e: r
2. 云原生工作負(fù)載:
/ v! L8 ]$ H# h; V鍵值存儲(chǔ)的每機(jī)架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫(kù)方面有顯著改進(jìn): v0 ^. F" Y, v3 B
% X1 }7 I6 w3 o1 B% W
' e* n3 T5 U3 G, R3 y, q5 T( X9 L, ]
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
su42cbzjji2640112469844.png
7 小時(shí)前 上傳
" Q6 f8 O4 v% [( M4 G1 K
圖8展示了AmpereOne在各種云原生工作負(fù)載中相對(duì)于A(yíng)MD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。
/ p4 r1 E; w, v! K( f) u2 j( j" o& r
3. AI推理:
9 s; L; A0 S( O& _" U在無(wú)GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色
7 l- ~# C' x1 G8 Q4 A: f' f; {) R1 W, y/ Y6 Q0 V, l9 u
5 W& p) |1 V5 i$ E4 u( N
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
ulcnfjlumvu640112469944.png
7 小時(shí)前 上傳
9 r, y7 \# a# N8 H/ U
圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。) ]4 [1 T$ O" \1 L1 b T
: e# A9 _& H; k% }0 _ e6 S
生態(tài)系統(tǒng)就緒' \' l6 q! ?4 B) p, i
任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個(gè)類(lèi)別中都擁有強(qiáng)大的生態(tài)系統(tǒng):2 M# [: ^" ~0 U' g& h- ]0 f/ ]
操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺(tái)兼容語(yǔ)言和運(yùn)行時(shí):支持Java、Python、Go等網(wǎng)絡(luò)和存儲(chǔ):與Mellanox、Marvell等解決方案集成應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫(kù)、AI和云游戲應(yīng)用
6 c5 A* a7 c; A6 R8 t" Q. s4 O$ m& q$ q4 d% D/ Y6 V+ w2 w T/ z
) ~. ?9 F+ ?' [, Q
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
0hbp4221e3a640112470044.png
7 小時(shí)前 上傳
) `9 W0 L3 b' t" l
圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類(lèi)別。0 B6 N% I8 H* D# `. c. N4 ^+ z
% f! |9 O3 S( t; O7 {
結(jié)論. v; ?4 @, T( E" |4 x. c! u4 ^5 [. r/ S
AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計(jì)的重大進(jìn)步。其創(chuàng)新架構(gòu)專(zhuān)注于可持續(xù)計(jì)算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計(jì)算領(lǐng)域處于領(lǐng)先地位。隨著對(duì)高效AI處理需求的持續(xù)增長(zhǎng),AmpereOne在分解設(shè)計(jì)、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。1 J5 X% ~) z* H
" D4 f! Q0 i2 S7 ?
通過(guò)優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿(mǎn)足了行業(yè)的當(dāng)前需求,還為未來(lái)可持續(xù)計(jì)算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動(dòng)的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價(jià)方面發(fā)揮關(guān)鍵作用。
- W4 W: D3 u: p5 M0 b7 U
: g( K) v9 g* M' q" R0 D% t5 s參考文獻(xiàn)9 V4 }( Z$ m V4 }0 G# b! G2 }' `
[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024. ?, R/ H0 o! L; Z" X
4 n* F! y" @2 r1 vEND
9 l) M3 ^1 M/ m$ f+ W5 [! S, ~7 ^$ Q1 g L" b/ G2 \) F( j
# h" g4 v: {# G% V6 Q軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
% o$ W7 B2 W. p. \& A- ?點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng): W" v% U; U/ F7 B. ~
" R# m& `0 z. ~0 W
歡迎轉(zhuǎn)載* {- S8 J2 D4 l, \
! y( h# }& M' M9 j( S2 b! b- u
轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!4 T& V. p: Q; e, `+ Y
$ n9 ^6 ~/ i; T
3 Q: u0 O$ S/ \7 l% V- C
: T& q5 {9 l s% M/ R5 X
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
c2dgcf5cv33640112470144.gif
7 小時(shí)前 上傳
+ A9 n- y% n; O& ~
. H! r, d, c" _$ I/ E3 f- a關(guān)注我們
! G0 A- K; s0 H3 v0 C6 X' M
) Q$ a/ \" r# G: c2 S& u
- i+ ~0 A9 e9 s; g4 {4 c
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
rj20gyvvgpw640112470244.png
7 小時(shí)前 上傳
' M$ y8 a. M1 p- `# j& F
|
0 w- F, _+ e+ d* c
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
xf30cmr0kwg640112470344.png
7 小時(shí)前 上傳
9 Y- l) A; W# g& e, L$ d. W |
9 p7 A- ~# v6 ?7 s. O
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
000ak3qlygi640112470444.png
7 小時(shí)前 上傳
: S9 M c0 Y; g3 z/ ~, i' w
| , X5 L5 \3 A, T; F! V: T
1 \" P8 ?- p$ t. q0 M. C2 A0 E( q
6 p/ d) z$ F) k1 \5 Z0 D d# o) c& B4 p% x
關(guān)于我們:
j/ e4 o' l" J, q7 T% u深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶(hù)。逍遙科技與國(guó)內(nèi)外晶圓代工廠(chǎng)及硅光/MEMS中試線(xiàn)合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶(hù)提供前沿技術(shù)與服務(wù)。
$ E4 K! V- `! ~
- G7 o: v4 ~) I& ]/ Q4 U6 }+ Khttp://www.latitudeda.com/) i* P# {9 {! d! o: Q
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|