電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 19|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 可持續(xù)計(jì)算在A(yíng)I和云原生工作負(fù)載中的應(yīng)用

[復(fù)制鏈接]

527

主題

527

帖子

4089

積分

四級(jí)會(huì)員

Rank: 4

積分
4089
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 昨天 08:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
引言$ b% J- k: C7 |( g( v- k, g
在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對(duì)高效且可持續(xù)的計(jì)算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長(zhǎng),需要能夠處理這些任務(wù)同時(shí)最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計(jì)算的挑戰(zhàn)[1]。3 s% z( n1 r3 L. y8 F
5 K- C. I. @6 S* Z- u
處理器設(shè)計(jì)的范式轉(zhuǎn)變
; M* y& g* T- v  V% b$ F1 c; L5 [7 N傳統(tǒng)的處理器設(shè)計(jì)技術(shù)在滿(mǎn)足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線(xiàn)程等方法。相反,它專(zhuān)注于功率優(yōu)化、一致的性能和線(xiàn)性核心擴(kuò)展。! F+ a% L3 I% h8 @8 C

5 F& Z/ i: k* d0 p1 _圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線(xiàn)性核心擴(kuò)展的重點(diǎn)。
6 F: [6 n- f, D1 |3 a; i5 d1 A& H# l' Q: S6 J
AmpereOne路線(xiàn)圖:持續(xù)創(chuàng)新的承諾
# r, B$ n7 {0 X: V6 f2 g9 FAmpereOne的產(chǎn)品路線(xiàn)圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計(jì)算提供每機(jī)架最佳性能。路線(xiàn)圖從當(dāng)前的AmpereOne系列開(kāi)始,具有高達(dá)192個(gè)核心的5nm工藝,一直延伸到未來(lái)的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個(gè)核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。
7 T* k4 L: J; p" E , n2 x6 H0 }' z$ s, Q
圖2展示了AmpereOne的產(chǎn)品路線(xiàn)圖,展示了從當(dāng)前型號(hào)到未來(lái)迭代的發(fā)展過(guò)程,核心數(shù)量不斷增加,功能不斷先進(jìn)。
8 x* \" S1 N6 e7 ~+ p& b$ ^/ K+ X6 w) I( i6 w
深入了解AmpereOne核心
2 e* G8 j3 h% JAmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計(jì)。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:
( B& ]# u1 o& w/ W0 T  v& \1 \
8 R! u' @, w) s. `1. 前端1 O# F6 `  e1 H( F% {" I4 Z& r. P
  • 最先進(jìn)的分支預(yù)測(cè)
  • 解耦的預(yù)測(cè)和獲取流水線(xiàn)
  • 用于大代碼足跡的高帶寬接口2 `; k1 g: g' }1 @

    , n) N; s5 j1 R2 n4 k1 C* p& m2. 執(zhí)行" y9 G* i$ B1 ^
  • 8個(gè)調(diào)度器供給12個(gè)執(zhí)行管道
  • 對(duì)稱(chēng)的整數(shù)和FP/矢量執(zhí)行管道
  • 通過(guò)單uop int8 MMLA支持AI推理吞吐量
    9 ?$ p4 i7 n3 ?9 i" x% ]
    & W0 G" s$ b' r" v. t. I
    3. 加載存儲(chǔ)單元- D& g8 n9 D8 V
  • 64KB,4路寫(xiě)直通DL1緩存
  • 4周期整數(shù)加載使用延遲
  • 從零開(kāi)始的熔斷保護(hù)
    & Y7 m3 H8 C0 d8 }! d) G0 P

    ) S: R& O. b( h* u" B- {/ X2 K( A4. 內(nèi)存管理
    3 u8 E3 J, Y; F3 d5 e7 m# E
  • 支持任何頁(yè)面大小的通用TLB條目
  • 用于頁(yè)面遍歷的專(zhuān)用L2接口
  • 優(yōu)化的TLB維護(hù)響應(yīng)時(shí)間
    4 O0 D" t' |# a! X# I1 h  b
      M- i" L# [( D! F# Y
    5. L2緩存
    # Q9 _+ _) z% ?) v
  • 2MB 8路私有L2數(shù)據(jù)/指令緩存
  • 11周期加載使用延遲
  • 請(qǐng)求率和預(yù)取的自適應(yīng)節(jié)流
    8 F& `1 c8 l$ Y
    " e, T5 G- k  \8 P7 ?! @' e* k

    ' {; q( G$ d- W) T4 A# b
    . y" y- Z/ L% [, h! \* p2 r2 Y圖3概述了AmpereOne核心流水線(xiàn),突出顯示了各個(gè)組件及其互連。1 p2 d# y+ q( F2 q$ P" {6 K' P

      B& D! q6 f4 v- _9 o- mAmpereOne的分解架構(gòu)& a3 d- |- e1 \, B4 Z
    AmpereOne的一個(gè)關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計(jì)算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個(gè)芯片使用最合適的制程制造。然后,這些組件通過(guò)Ampere的自定義芯片間(D2D)互連連接,每個(gè)方向能夠達(dá)到2.8TB/s的帶寬。& [0 w4 |5 Q0 r+ _" E( W# y. ^6 H
    # o  Z/ u2 m7 ]+ P5 ]/ }
    圖4展示了AmpereOne的分解架構(gòu),顯示了計(jì)算、內(nèi)存和PCIe組件如何分離和互連。- w  b# Q* d1 a% C% R$ U2 `
    : H( w' b: e. r, ~; r9 t& ~0 o$ M
    這種靈活的架構(gòu)允許:
    ( V/ g0 q/ u2 J# L0 {
  • 使用相同的構(gòu)建塊實(shí)現(xiàn)8通道和12通道設(shè)計(jì)
  • 快速集成客戶(hù)IP
  • 定制以滿(mǎn)足獨(dú)特的客戶(hù)I/O和內(nèi)存需求3 T" \1 a* V! w) F" v

    " |  N6 w- B" q6 @增強(qiáng)安全性和性能的先進(jìn)功能
    $ V' T: m9 k8 Y& O3 N內(nèi)存標(biāo)記
    7 E" G5 R9 q) r2 A+ {# u9 MAmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測(cè)指針編程錯(cuò)誤并減輕利用內(nèi)存安全漏洞的攻擊。5 u# S' k, @' u* @% k
    / f! D8 ]4 A  }; ^8 F
    內(nèi)存標(biāo)記的關(guān)鍵方面:
    7 a0 r2 s4 D: G
  • 每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"
  • 指針在地址的高位攜帶"訪(fǎng)問(wèn)標(biāo)記"
  • 核心對(duì)每次內(nèi)存訪(fǎng)問(wèn)檢查"訪(fǎng)問(wèn)標(biāo)記 = 分配標(biāo)記"
  • 不匹配會(huì)導(dǎo)致故障并阻止數(shù)據(jù)訪(fǎng)問(wèn)+ ^6 n8 x9 b  i* X' D* d$ ^

    : q  Q% c7 ]; `" p% i2 z
    . r5 j" n  G( x! H1 I( d/ U9 n
    # i' B- \! @/ i; K$ a4 T, [* @+ H! k圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。8 L! u/ h- W+ K4 b) O
    1 i6 n! V4 \. R
    自適應(yīng)流量管理
    ) _5 \' {7 L' c- x* W8 [$ ?7 t為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對(duì)于最小化運(yùn)行間變異和獨(dú)立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。
    5 U8 {4 a1 F, l: N, a2 t& ?, d$ M* y; a& W" d
    運(yùn)行原理:
    / j9 x' Q6 v1 u, T* _$ s
  • 內(nèi)存服務(wù)代理通報(bào)"繁忙"程度
  • 核心相應(yīng)地修改請(qǐng)求流量的速率和配置
  • 針對(duì)不同工作負(fù)載行為的自適應(yīng)響應(yīng)
    ! g/ g8 T' S' f1 c  K# m
      h, l% \4 `9 u4 L/ z) Z
    # k7 [. F3 z# D/ U: \+ Y

    ( \- ?; c1 p2 g( m圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。! s/ r. G3 @- P! ^1 b  W$ s

    . J+ W# S1 P% y" c: A9 Y性能領(lǐng)先地位
    % s$ n  z8 o$ ^AmpereOne在各種基準(zhǔn)測(cè)試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):
    ' {+ ~# h- d0 n9 D. Z% z# R8 ]; g* x( k$ W! D2 D% ~
    1. SPECrate 2017_int_base:
    7 Y% R3 R" J3 I1 |# p7 j8 F' @2 P! y
  • 每機(jī)架性能比AMD Genoa高出34%
  • 每瓦性能比AMD Genoa高出50%
    8 b7 m9 z) L6 J+ ?( g5 J6 l3 ~/ b

    1 m+ V; z, @2 i0 w4 H( ^+ s/ u0 p% J7 H( F7 ]+ [) o* H0 h2 H$ W
    4 p" B: b- a1 ]2 `' I9 D5 o, Y
    圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測(cè)試中的每機(jī)架性能和每瓦性能。( S4 x1 C6 L. e) n
    ! [  [6 }, x' Y2 S1 V( e: r
    2. 云原生工作負(fù)載:
    / v! L8 ]$ H# h; V
  • 鍵值存儲(chǔ)的每機(jī)架性能提高了58%
  • 在容器化Web服務(wù)、緩存和數(shù)據(jù)庫(kù)方面有顯著改進(jìn): v0 ^. F" Y, v3 B

    % X1 }7 I6 w3 o1 B% W
    ' e* n3 T5 U3 G, R3 y, q5 T( X9 L, ] " Q6 f8 O4 v% [( M4 G1 K
    圖8展示了AmpereOne在各種云原生工作負(fù)載中相對(duì)于A(yíng)MD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。
    / p4 r1 E; w, v! K( f) u2 j( j" o& r
    3. AI推理:
    9 s; L; A0 S( O& _" U
  • 在無(wú)GPU推理性能和效率方面處于領(lǐng)先地位
  • 在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色
    7 l- ~# C' x1 G8 Q4 A: f
    ' f; {) R1 W, y/ Y6 Q0 V, l9 u
    5 W& p) |1 V5 i$ E4 u( N
    9 r, y7 \# a# N8 H/ U
    圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。) ]4 [1 T$ O" \1 L1 b  T
    : e# A9 _& H; k% }0 _  e6 S
    生態(tài)系統(tǒng)就緒' \' l6 q! ?4 B) p, i
    任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個(gè)類(lèi)別中都擁有強(qiáng)大的生態(tài)系統(tǒng):2 M# [: ^" ~0 U' g& h- ]0 f/ ]
  • 操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu
  • 編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺(tái)兼容
  • 語(yǔ)言和運(yùn)行時(shí):支持Java、Python、Go等
  • 網(wǎng)絡(luò)和存儲(chǔ):與Mellanox、Marvell等解決方案集成
  • 應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫(kù)、AI和云游戲應(yīng)用
    6 c5 A* a7 c; A6 R8 t" Q. s4 O$ m& q
    $ q4 d% D/ Y6 V+ w2 w  T/ z
    ) ~. ?9 F+ ?' [, Q
    ) `9 W0 L3 b' t" l
    圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類(lèi)別。0 B6 N% I8 H* D# `. c. N4 ^+ z
    % f! |9 O3 S( t; O7 {
    結(jié)論. v; ?4 @, T( E" |4 x. c! u4 ^5 [. r/ S
    AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計(jì)的重大進(jìn)步。其創(chuàng)新架構(gòu)專(zhuān)注于可持續(xù)計(jì)算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計(jì)算領(lǐng)域處于領(lǐng)先地位。隨著對(duì)高效AI處理需求的持續(xù)增長(zhǎng),AmpereOne在分解設(shè)計(jì)、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。1 J5 X% ~) z* H
    " D4 f! Q0 i2 S7 ?
    通過(guò)優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿(mǎn)足了行業(yè)的當(dāng)前需求,還為未來(lái)可持續(xù)計(jì)算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動(dòng)的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價(jià)方面發(fā)揮關(guān)鍵作用。
    - W4 W: D3 u: p5 M0 b7 U
    : g( K) v9 g* M' q" R0 D% t5 s參考文獻(xiàn)9 V4 }( Z$ m  V4 }0 G# b! G2 }' `
    [1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.  ?, R/ H0 o! L; Z" X

    4 n* F! y" @2 r1 vEND
    9 l) M3 ^1 M/ m$ f+ W5 [
    ! S, ~7 ^$ Q1 g  L" b/ G2 \) F( j

    # h" g4 v: {# G% V6 Q軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    % o$ W7 B2 W. p. \& A- ?點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng): W" v% U; U/ F7 B. ~
    " R# m& `0 z. ~0 W
    歡迎轉(zhuǎn)載* {- S8 J2 D4 l, \
    ! y( h# }& M' M9 j( S2 b! b- u
    轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!4 T& V. p: Q; e, `+ Y

    $ n9 ^6 ~/ i; T
    3 Q: u0 O$ S/ \7 l% V- C

    : T& q5 {9 l  s% M/ R5 X
    + A9 n- y% n; O& ~
    . H! r, d, c" _$ I/ E3 f- a關(guān)注我們
    ! G0 A- K; s0 H3 v0 C6 X' M
    ) Q$ a/ \" r# G: c2 S& u

    - i+ ~0 A9 e9 s; g4 {4 c ' M$ y8 a. M1 p- `# j& F

    0 w- F, _+ e+ d* c
    9 Y- l) A; W# g& e, L$ d. W

    9 p7 A- ~# v6 ?7 s. O : S9 M  c0 Y; g3 z/ ~, i' w
                          , X5 L5 \3 A, T; F! V: T
    1 \" P8 ?- p$ t. q0 M. C2 A0 E( q

    6 p/ d) z$ F) k1 \5 Z0 D  d# o) c& B4 p% x
    關(guān)于我們:
      j/ e4 o' l" J, q7 T% u深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶(hù)。逍遙科技與國(guó)內(nèi)外晶圓代工廠(chǎng)及硅光/MEMS中試線(xiàn)合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶(hù)提供前沿技術(shù)與服務(wù)。
    $ E4 K! V- `! ~
    - G7 o: v4 ~) I& ]/ Q4 U6 }+ Khttp://www.latitudeda.com/) i* P# {9 {! d! o: Q
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則

    關(guān)閉

    站長(zhǎng)推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表