|
引言
2 H* s6 q! Y- L' q( ?' U) ~$ Y- S在當今快速發(fā)展的技術(shù)環(huán)境中,對高效且可持續(xù)的計算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負載的復(fù)雜性和規(guī)模不斷增長,需要能夠處理這些任務(wù)同時最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計算的挑戰(zhàn)[1]。1 Q# f Z" W V @/ B9 f4 X
6 d; `0 }" T6 \7 ^( l
處理器設(shè)計的范式轉(zhuǎn)變$ ^2 ?' D7 e5 Z( }9 Q$ J* z. w
傳統(tǒng)的處理器設(shè)計技術(shù)在滿足當今工作負載需求方面已達到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線程等方法。相反,它專注于功率優(yōu)化、一致的性能和線性核心擴展。
' m/ v- @1 i, M m' X# r
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 0)
下載附件
保存到相冊
uq1nz3ceyd3640112469142.png
3 小時前 上傳
! ]/ @/ O0 _8 P圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強調(diào)了功率優(yōu)化和線性核心擴展的重點。
% n. J! x h+ b: m0 M% Y3 o0 h! s2 a) g4 B K9 G$ q
AmpereOne路線圖:持續(xù)創(chuàng)新的承諾) p) T ?; Z- @1 @) @# n3 K+ S
AmpereOne的產(chǎn)品路線圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計算提供每機架最佳性能。路線圖從當前的AmpereOne系列開始,具有高達192個核心的5nm工藝,一直延伸到未來的迭代版本,如AmpereOne Aurora,承諾提供高達512個核心,并集成用于訓練和推理工作負載的AI硅。' m: k* `6 E( `) g
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 0)
下載附件
保存到相冊
nxxxdumrr4p640112469242.png
3 小時前 上傳
7 q3 `9 ~7 f' E3 j0 g- q" U圖2展示了AmpereOne的產(chǎn)品路線圖,展示了從當前型號到未來迭代的發(fā)展過程,核心數(shù)量不斷增加,功能不斷先進。
$ g+ L5 t6 o. B, }9 \9 U8 v# P; L5 N ^8 A
深入了解AmpereOne核心# I! E$ ^( o: G
AmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
: q. @. |- |3 `/ q( Q( o% @7 [! F8 k) j0 S( ?# D5 @% O
1. 前端+ a7 u, v1 f& y
最先進的分支預(yù)測解耦的預(yù)測和獲取流水線用于大代碼足跡的高帶寬接口4 x# {+ R9 M: j
, p& p9 ~1 b* b( @
2. 執(zhí)行; w0 u7 _' M9 R5 R
8個調(diào)度器供給12個執(zhí)行管道對稱的整數(shù)和FP/矢量執(zhí)行管道通過單uop int8 MMLA支持AI推理吞吐量
$ \' R5 O6 `) L) F: R4 d, M& X$ l& P1 _( x" j g, S
3. 加載存儲單元) Z; b, F4 g& k1 e, i1 R
64KB,4路寫直通DL1緩存4周期整數(shù)加載使用延遲從零開始的熔斷保護+ E( s+ Z3 T; i. b5 l' m
: a" a: q: b$ U: e" P4. 內(nèi)存管理3 Q3 b0 p; Z& ` M6 _: a. I
支持任何頁面大小的通用TLB條目用于頁面遍歷的專用L2接口優(yōu)化的TLB維護響應(yīng)時間. w' C! @# [2 F
- |( K" p/ H6 [9 U5. L2緩存; l5 @8 ^" W' M9 [& c1 M$ {0 H- [0 |
2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請求率和預(yù)取的自適應(yīng)節(jié)流
4 f; `: ]% l) k' t9 e
+ u5 b) j4 a8 x7 O; o7 g5 e. A8 X1 G( I9 R7 q
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 0)
下載附件
保存到相冊
yjgwmsbkfv5640112469343.png
3 小時前 上傳
5 l# c0 K7 ~: Z+ A
圖3概述了AmpereOne核心流水線,突出顯示了各個組件及其互連。4 ^- s) E% B- c1 T4 ~8 e
: i0 [+ y8 r( u3 G5 N: @- g& j4 yAmpereOne的分解架構(gòu)( c# x1 k9 R' s x" L0 Q
AmpereOne的一個關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個芯片使用最合適的制程制造。然后,這些組件通過Ampere的自定義芯片間(D2D)互連連接,每個方向能夠達到2.8TB/s的帶寬。
" `" ]- p' n3 u
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊
mcccjpnso5p640112469443.png
3 小時前 上傳
: a- E! V$ @7 L9 K& F" l# b1 U7 o圖4展示了AmpereOne的分解架構(gòu),顯示了計算、內(nèi)存和PCIe組件如何分離和互連。
' y" k! P1 s8 J: L; @+ Z3 |, H0 D; q1 w! I4 D$ y k
這種靈活的架構(gòu)允許:" _; [, @' ^. G7 i+ `8 J! M
使用相同的構(gòu)建塊實現(xiàn)8通道和12通道設(shè)計快速集成客戶IP定制以滿足獨特的客戶I/O和內(nèi)存需求
r! `, i, x9 a7 y9 {0 v- V8 M& U) q" f" N
增強安全性和性能的先進功能! H. v, [$ h5 { J! s- O6 I _
內(nèi)存標記
; b1 a1 f7 O* K1 X% Q% r; S$ KAmpereOne引入了強大的內(nèi)存標記功能,增強了穩(wěn)健性和安全性。這一功能有助于檢測指針編程錯誤并減輕利用內(nèi)存安全漏洞的攻擊。
9 G; l% \" a$ r& h4 J3 S
O b+ V: F2 U內(nèi)存標記的關(guān)鍵方面:4 W7 l1 o3 O4 |1 z$ s( i
每16字節(jié)內(nèi)存粒度獲得4位"分配標記"指針在地址的高位攜帶"訪問標記"核心對每次內(nèi)存訪問檢查"訪問標記 = 分配標記"不匹配會導(dǎo)致故障并阻止數(shù)據(jù)訪問
) {1 w0 n" [* b9 i5 H) [2 T# g9 F% k. {
) d4 i/ r8 C* G( Y. X
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 0)
下載附件
保存到相冊
nlqco5wqc1y640112469543.png
3 小時前 上傳
- B; e/ ^9 G) ~' w
圖5演示了內(nèi)存標記的概念,顯示了標記如何與內(nèi)存分配和指針相關(guān)聯(lián)。 R8 Q/ F7 D! G3 A L& k
" Q, J+ f; p1 L# ^' V5 }
自適應(yīng)流量管理+ w) l- L6 U. a5 u* m4 {/ \
為了提供一致和可擴展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對于最小化運行間變異和獨立并發(fā)工作負載之間的干擾非常關(guān)鍵。
! c3 k3 E# ]8 B8 u' ]. r* o+ C* c+ U) v9 b8 K
運行原理:: w# e' F) t2 z1 f; Y5 c
內(nèi)存服務(wù)代理通報"繁忙"程度核心相應(yīng)地修改請求流量的速率和配置針對不同工作負載行為的自適應(yīng)響應(yīng)& _& G/ E8 {: O" O8 [
- X1 k) \' r& ?+ _: J& Y* g( |0 r8 e9 S3 ]
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jhtr4ttesbk640112469643.png
3 小時前 上傳
# b/ ?2 W# m# n5 f7 F7 e圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。
* r) \) H; Z7 B: }& h7 Z
2 c( H, ^ t" C/ I) B J8 q: z7 m# s性能領(lǐng)先地位; g7 g% }2 r& Q( _
AmpereOne在各種基準測試和工作負載中展示了令人印象深刻的性能指標:
5 G) [* j( g5 W' ]
1 r8 W& h- Z0 M( u9 V1. SPECrate 2017_int_base:" O& |* f" G& r
每機架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%8 q) x! e$ B- L
- w8 Y: `& Y: X$ H; m( j- U% R3 t; f; E% H, \ F" H; Z% T1 W
qpe3xbxt5lh640112469743.png (161.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊
qpe3xbxt5lh640112469743.png
3 小時前 上傳
4 p' ^* Y9 E2 B9 }8 O9 f7 w# v0 I* Z圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準測試中的每機架性能和每瓦性能。
: q0 u) l, P. I( S) S5 m, E' ?; x# }5 b
2. 云原生工作負載:$ W0 ]* o) h8 l- ]# N; N* J( K
鍵值存儲的每機架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫方面有顯著改進1 W& L" W" f/ g2 c; Y v
( x# d8 u n4 _2 u
) n T/ h; l9 n: S7 ~ P. @
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 0)
下載附件
保存到相冊
su42cbzjji2640112469844.png
3 小時前 上傳
4 v4 X8 b# O r; e( j# i( d
圖8展示了AmpereOne在各種云原生工作負載中相對于AMD Genoa和AMD Bergamo的每機架性能改進。
* \7 E7 V! i; q) o7 V6 E7 n
% d" c. d5 {( K3. AI推理:
2 s3 I, }9 _6 W/ T1 ~! h在無GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色
( g+ _* Y8 a. A p; l( x* q* I- z$ ]) f& n" C
2 m% P2 R+ q. s' d$ r2 D
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ulcnfjlumvu640112469944.png
3 小時前 上傳
, W5 w0 {( K, T: ?) N, |+ I圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。( k2 s) `! n( ~" u0 U8 t; K
2 S- e4 O4 }! t
生態(tài)系統(tǒng)就緒4 ?2 |5 q; ?% \. j& U2 e) {
任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個類別中都擁有強大的生態(tài)系統(tǒng):
: m8 e1 n: d$ R# G& |0 J操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺兼容語言和運行時:支持Java、Python、Go等網(wǎng)絡(luò)和存儲:與Mellanox、Marvell等解決方案集成應(yīng)用程序:準備用于廣泛的Web服務(wù)、數(shù)據(jù)庫、AI和云游戲應(yīng)用" x$ X3 O2 }6 L; J+ A
7 j6 b! a7 C. ^9 G
# r2 X& X+ }$ R$ M% ^8 x$ J3 a& B
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 0)
下載附件
保存到相冊
0hbp4221e3a640112470044.png
3 小時前 上傳
# b$ X) T% w" K% @$ ~; t% ]
圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類別。
' B! l, V6 u/ V) Q- H0 z+ T. l/ I8 C4 o
結(jié)論
) e) }* y1 F2 `) Z1 ]+ BAmpereOne代表了AI和云原生工作負載處理器設(shè)計的重大進步。其創(chuàng)新架構(gòu)專注于可持續(xù)計算和可擴展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計算領(lǐng)域處于領(lǐng)先地位。隨著對高效AI處理需求的持續(xù)增長,AmpereOne在分解設(shè)計、先進安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。
2 c) F% t6 e9 M% G1 u0 C8 n' m
6 ^) c& v4 u Q* f6 t" d4 I: M通過優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負載的能力,AmpereOne不僅滿足了行業(yè)的當前需求,還為未來可持續(xù)計算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進步不以環(huán)境可持續(xù)性為代價方面發(fā)揮關(guān)鍵作用。' k5 L) Y, u$ G# g4 X% D
7 x1 a+ g4 {, _0 s3 t5 m參考文獻" {/ ^9 Q$ Q! I, ^& N R
[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024., D' V3 V) n3 N
# Q; R. _0 g# d* y% KEND
" U$ m& F- m- O( F
; D7 f3 ]" q8 K! Q7 z9 I, D* C1 [+ z
1 Z3 m. L7 u7 G, Y軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
1 \+ X" k: w Q% ~: `( L點擊左下角"閱讀原文"馬上申請- q% j4 A6 x5 ~
1 B( F7 c% [' v4 L0 i* P
歡迎轉(zhuǎn)載4 X8 ?- ^/ e: }" \' V
- ]" u( a. R) }* J( e8 w轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
8 E0 O( P, h/ B2 r+ {7 E" L
, f# U9 F R8 U* N/ ]6 j. L; E4 U9 m4 G5 U* ]# M/ ?+ [
8 ]6 F* e# E. ]8 }8 m
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
c2dgcf5cv33640112470144.gif
3 小時前 上傳
4 Y! _3 `) c$ f& |
& M5 l4 A+ L- c9 A4 ?( \1 k2 o關(guān)注我們
; J1 _7 P1 j; Q ?' q. l) Z. v8 q) q9 H v+ A7 O5 ?* e: y( j( X
. {9 M' B, q- |; S: f( J& f5 M
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
rj20gyvvgpw640112470244.png
3 小時前 上傳
# E* v+ V) s$ ]: }' g+ d( L, _0 Z3 E | ) ~7 T/ H- H- U( J+ j
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
xf30cmr0kwg640112470344.png
3 小時前 上傳
, Z' q& ]; [$ k3 |9 m |
+ O( E! D! g( D
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
000ak3qlygi640112470444.png
3 小時前 上傳
. N5 P; U( z5 k0 K
| ! ]8 ?0 t: I( j& A6 C4 x* S( N3 v
; a" c+ J) W5 m
( u2 ]' o( q% g4 T3 @6 Q& b$ g
3 M$ U8 K' h" C5 f關(guān)于我們:# t, c7 M! J0 t6 Z2 o
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
+ @' z4 W' _- {* ?% G3 w1 x' |* O4 k; h( g4 G! ^
http://www.latitudeda.com/# \( o: q3 ]$ _' b, X* Q
(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|