|
引言2 d+ ~! V0 d8 R7 D
隨著硅晶體管縮放接近極限,研究人員正在探索新技術(shù)以繼續(xù)提高處理器性能和效率。有前途的方向是使用片上光學(xué)網(wǎng)絡(luò)(也稱為光學(xué)片上網(wǎng)絡(luò)或光學(xué)NoC)來替代傳統(tǒng)的電氣互連。與電氣網(wǎng)絡(luò)相比,光學(xué)NoC在帶寬、延遲和功耗方面具有潛在優(yōu)勢(shì)。然而,有效管理光學(xué)NoC的功耗帶來了新的挑戰(zhàn)[1]。' C1 l5 ?, F( x8 U0 U
$ W# o/ X6 ~7 v3 s# s+ I本文將探討用于最小化光學(xué)NoC靜態(tài)功耗的激光調(diào)制方案。我們將介紹基于網(wǎng)絡(luò)活動(dòng)動(dòng)態(tài)調(diào)制激光功率的關(guān)鍵概念、架構(gòu)和預(yù)測(cè)技術(shù)。- N, f/ G7 D# }( Y2 _0 a* h
; v* A# x# B- {: N0 Q- L
8 g9 g6 X9 b" c背景6 `( O/ b$ q* I1 o, O+ P
光學(xué)NoC使用光來傳輸芯片上組件之間的數(shù)據(jù);緲(gòu)建模塊包括:7 N( `. g* U, V& R: {7 y
激光器:光源,可以是片外或片上調(diào)制器:將電信號(hào)轉(zhuǎn)換為光信號(hào)波導(dǎo):在芯片上引導(dǎo)光光電探測(cè)器:將光信號(hào)轉(zhuǎn)換回電信號(hào); |4 j) G' e. [9 ~/ \- t8 c& ? c
; Y9 }+ y9 q# d7 Z, t
光傳輸本身非常高效,但產(chǎn)生光的激光器消耗大量功率。一個(gè)關(guān)鍵挑戰(zhàn)是光子不能像電荷那樣容易存儲(chǔ)。這意味著激光器通常需要持續(xù)供電,即使不主動(dòng)傳輸數(shù)據(jù)時(shí)也是如此。這種靜態(tài)功耗可能占光學(xué)NoC總功耗的80-90%。: u* u3 w2 n9 J( K0 i8 _- c7 v1 y
: H0 ~% E& X. C8 t. W# A
為解決這個(gè)問題,研究人員開發(fā)了激光調(diào)制方案,旨在根據(jù)預(yù)測(cè)的網(wǎng)絡(luò)活動(dòng)動(dòng)態(tài)調(diào)整激光功率。一般方法包括:& r/ ^* W5 x$ f, v/ x$ T0 Z
監(jiān)控網(wǎng)絡(luò)活動(dòng)指標(biāo)預(yù)測(cè)未來活動(dòng)相應(yīng)調(diào)整激光功率重新配置網(wǎng)絡(luò)
9 G) K, S& ~* l+ Z2 h) ?. j8 ?
* |$ q0 J% A1 ?7 Q讓我們看看為不同類型處理器提出的一些具體方案。 _, r" ?, P% K |1 L! d: ?: T7 G2 V
* t. m+ a: |# ?+ e: m
多核CPU設(shè)計(jì)中的激光調(diào)制方案; H5 j) o& V* y4 B6 {: `
Probe2 h3 h$ j/ L3 O: x4 c
最早提出的激光調(diào)制方案之一是Probe。使用64核架構(gòu),核心分組為4x4塊。每個(gè)塊都有專用的片外激光器,可以使用單寫多讀(SWMR)總線廣播消息。
* K7 ^( m8 `+ c5 y, M* \" q1 K0 r R& Q: m: z# `2 \
Probe根據(jù)鏈路利用率和緩沖區(qū)利用率指標(biāo)預(yù)測(cè)未來活動(dòng)。使用兩種類型的預(yù)測(cè)器:用于低流量變化:過去和當(dāng)前利用率的加權(quán)平均用于高變化:由利用率水平索引的模式歷史表
/ _1 z% G, P& p8 V6 y/ f9 R[/ol]
+ p3 M8 P/ n4 F9 @錦標(biāo)賽預(yù)測(cè)器根據(jù)最近的準(zhǔn)確性在兩者之間選擇。
# k3 B6 E/ K0 H8 y& q d& j; t0 u4 f; a) T3 m' | {( @
ColdBus8 C2 [& e& W+ o5 b3 `
ColdBus采用不同的方法,基于L1緩存未命中預(yù)測(cè)活動(dòng)。關(guān)鍵洞察是在共享內(nèi)存系統(tǒng)中,大部分網(wǎng)絡(luò)流量來自L1未命中。 n; \5 _9 j* i/ _( U
$ ~& Z1 T# w) {" e
使用類似于分支預(yù)測(cè)器的基于PC的預(yù)測(cè)器來識(shí)別可能導(dǎo)致未命中的指令。然后,一個(gè)時(shí)期預(yù)測(cè)器估計(jì)這些未命中何時(shí)發(fā)生。3 Q1 e$ o5 C" \; h
: I4 t5 v- t" z/ L% O
ColdBus還引入了一個(gè)"額外波導(dǎo)",為需要的站點(diǎn)提供應(yīng)急功率。+ O, i/ H, L2 U8 q
a4 Q; m6 l" t. z( j% nPShaRe+ ]3 U8 z, ^$ D9 _ D( r) Q
PShaRe在之前工作的基礎(chǔ)上有幾個(gè)關(guān)鍵創(chuàng)新:一致性和非一致性流量的獨(dú)立網(wǎng)絡(luò)基于神經(jīng)網(wǎng)絡(luò)的非線性預(yù)測(cè)器站點(diǎn)之間的功率共享重用浪費(fèi)的光功率進(jìn)行熱調(diào)諧/ R8 z% G0 L5 V6 }
[/ol]) D1 u6 @' w- t5 i3 ~
圖1顯示了整體架構(gòu):
- ` I6 B' S9 ?1 k! P& `8 ~
- X+ g3 Y( U6 V0 ]# W) a
nltekny5u1g64015584757.png (157.24 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
nltekny5u1g64015584757.png
2024-9-18 13:47 上傳
' i" k( l3 \5 l8 p* M0 |7 l
圖1:PShaRe架構(gòu),顯示連接光學(xué)站點(diǎn)的功率和數(shù)據(jù)波導(dǎo)。
, k# [4 Z- F% V, I8 O
$ u. ^9 K, d6 H* u神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)器使用14個(gè)性能計(jì)數(shù)器輸入,對(duì)每個(gè)站點(diǎn)在下一個(gè)時(shí)期的活動(dòng)進(jìn)行二元預(yù)測(cè)。2 c& F) Q- R+ x# g2 F
{: Z( K$ M/ U& }
BigBus1 b) T K0 p. ` F! ?( @: k
對(duì)于非常大的核心數(shù)(500+),需要像BigBus這樣的設(shè)計(jì)。BigBus使用分層架構(gòu),將塊簇組成更大的單元。 g) T* `5 G9 _4 |8 D. R* ~' I$ H
, v# I! W, s7 E$ B7 ^' @圖2說明了BigBus設(shè)計(jì):% a' U m+ K8 B; h B( c
F0 k" \& H$ E% i
4dtw2bmj0vp64015584857.png (216.89 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
4dtw2bmj0vp64015584857.png
2024-9-18 13:47 上傳
' J! E; r0 _% S4 V, _* ~圖2:BigBus架構(gòu),顯示由蛇形光鏈路連接的核心和緩存庫的分層組織。& U( |5 M7 O1 R2 J R
7 F2 o- @ B c* w. L# @BigBus使用兩階段預(yù)測(cè)過程:每個(gè)站點(diǎn)根據(jù)等待時(shí)間和待處理事件決定是否增加/減少令牌激光控制器將當(dāng)前預(yù)測(cè)與歷史數(shù)據(jù)結(jié)合5 H1 g$ Z, z# h, u8 y
[/ol]" L+ h$ J. j+ I
這允許在當(dāng)前條件的響應(yīng)性和穩(wěn)定性之間取得平衡。 t& C# {- s5 R7 M8 |5 Z
! F( e4 M7 D H g1 L
* _0 U& G& s# ~# n多插槽系統(tǒng)(MULTI-SOCKET SYSTEMS)中的激光調(diào)制方案% z3 B$ G2 B2 w9 \( q
對(duì)于像服務(wù)器這樣的多芯片系統(tǒng),像Nuplet這樣的設(shè)計(jì)將光網(wǎng)絡(luò)擴(kuò)展到插槽之間。Nuplet同時(shí)使用片內(nèi)和片間光網(wǎng)絡(luò)。
$ E* d2 }7 }$ ?2 D' N: d0 B Q5 D) f% ?
片間預(yù)測(cè)機(jī)制旨在確定要流通的仲裁令牌數(shù)量。它考慮:發(fā)送到片間光學(xué)站(ICOS)的消息ICOS隊(duì)列中的待處理事件: L9 ]% X* F" x4 a6 O
[/ol]
0 A* e2 l+ b! T/ b5 y, U0 d功率請(qǐng)求表(PRT)存儲(chǔ)歷史令牌計(jì)數(shù)。預(yù)測(cè)將PRT值與當(dāng)前流量趨勢(shì)和隊(duì)列狀態(tài)結(jié)合。6 X& M% s) |: |' p) c
8 e1 j) H+ Y8 Y/ i/ \! E7 o! ^GPU設(shè)計(jì)中的激光調(diào)制方案
2 k5 _; @- a* c3 H# d由于GPU側(cè)重于內(nèi)存帶寬而非延遲,因此帶來了獨(dú)特的挑戰(zhàn)。GPUOpt設(shè)計(jì)將光學(xué)NoC適配于GPU架構(gòu)。
0 E7 I) W5 |& K/ |4 r/ v2 O7 V4 g5 l8 S9 C1 r. I4 }; l
圖3顯示了GPUOpt的整體架構(gòu):
7 Z0 Z$ ?9 U/ D; b0 v# P3 W/ M6 L4 L; h6 O" U; b
nhvur1armwm64015584957.png (198.05 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
nhvur1armwm64015584957.png
2024-9-18 13:47 上傳
7 g' _) v) B/ d( a3 O圖3:GPU光學(xué)NoC的架構(gòu),顯示由光網(wǎng)絡(luò)連接的SM和LLC集群。
% D! f% z# J5 ?! ]$ ^6 a1 M
9 t& k# F6 k2 mGPUOpt對(duì)流式多處理器(SM)站點(diǎn)和最后級(jí)緩存(LLC)站點(diǎn)使用不同的預(yù)測(cè)機(jī)制:
5 H( F, ]+ ?' m- M m6 P5 u1. SM站點(diǎn)使用基于以下因素的受限預(yù)測(cè)器(Restr_Pred):4 @; Q8 c F# b
接收的消息發(fā)送的消息等待時(shí)間
- t7 k; d+ U0 N: b% L6 n& l. @% O& U
! }6 j9 Q$ W" Q7 o2. LLC站點(diǎn)使用考慮以下因素的靈活預(yù)測(cè)器(Flex_Pred):
0 r1 W3 T. {' ]4 M1 J, b# L4 {! t接收的消息發(fā)送的消息待處理事件+ Y* r$ P. m) j( o' X# o7 C; B, |
- l0 e) _+ X/ W# l
激光控制器將這些預(yù)測(cè)結(jié)合起來,確定整體功率需求。) S. e7 j$ @2 F+ P! `' T
& b* {! ?% d* N
! \. m. {3 l7 k3 }9 b# H
關(guān)鍵概念和趨勢(shì)$ w# v; w) o3 L4 G8 z
雖然具體方案各不相同,但一些共同主題和最佳實(shí)踐浮現(xiàn)出來:
0 y9 X. M* H8 m% ]) v& n R3 f; Y# o% C v! w4 f) b
1.將時(shí)間劃分為固定時(shí)期進(jìn)行預(yù)測(cè)和重新配置$ ]* f1 u1 ?1 w/ m6 @6 d# R3 k W
2. 使用多個(gè)輸入指標(biāo):
) N6 ?5 K6 [! G網(wǎng)絡(luò)利用率緩沖區(qū)占用率緩存未命中率指令類型待處理事件
' p- g/ B3 \& G+ o1 F- N9 T3. 將當(dāng)前指標(biāo)與歷史數(shù)據(jù)結(jié)合( V1 W" p |2 F& R' D h
4. 使用非線性預(yù)測(cè)函數(shù)(如神經(jīng)網(wǎng)絡(luò))捕捉復(fù)雜關(guān)系
6 ?6 R( Y5 O* J( E5. 對(duì)不同流量類型進(jìn)行單獨(dú)預(yù)測(cè)(如一致性與非一致性)
, K4 z4 g$ E! r2 m6. 分層設(shè)計(jì)以實(shí)現(xiàn)可擴(kuò)展性
4 ]$ R) [# O- k6 b0 l! n6 {7. 盡可能重用未使用的光功率
" _2 }7 F4 z& w1 }, m( t# E) g8. 為特定架構(gòu)經(jīng)驗(yàn)性地調(diào)整預(yù)測(cè)參數(shù)7 \3 j# D. G) B: H+ e9 Y2 A" l, p" U4 e
4 q1 ?+ E) O, t, T' n
圖4說明了有效激光調(diào)制可能帶來的功率節(jié)。
" I8 {- E+ p* L/ R4 }( o3 r6 z" u5 F, e8 j3 A- m
lkotyjfobgw64015585058.png (100.12 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
lkotyjfobgw64015585058.png
2024-9-18 13:47 上傳
& p7 L# e/ ~6 Z+ W- J$ G. E# ?圖4:ideal、Probe和ColdBus方案在各種基準(zhǔn)測(cè)試中的相對(duì)激光功耗。0 e! c' P& b& O( m' K- o
0 s! ~# n- `& c% A4 q4 Y: {; \8 M. x
3 W+ V# {- ?" n! X. d1 U4 h未來方向; N6 r3 X& n9 x( Z
隨著光學(xué)NoC從研究轉(zhuǎn)向?qū)嶋H實(shí)施,可以期待這些技術(shù)的進(jìn)一步完善。方向包括:+ Q% q _% Z# Z! L1 v
用于更準(zhǔn)確預(yù)測(cè)的機(jī)器學(xué)習(xí)技術(shù)與應(yīng)用層知識(shí)的集成在運(yùn)行時(shí)調(diào)整參數(shù)的自適應(yīng)方案考慮電氣和光網(wǎng)絡(luò)的整體優(yōu)化針對(duì)新興工作負(fù)載(如AI加速)的專門化: J" s4 v# U# g3 k6 c4 d( n
. u3 z- V% A( m s7 | q1 B
' r9 G$ j% y3 K# ^: `2 P結(jié)論% e* X2 [7 R3 E! g+ A1 W5 k
有效的激光調(diào)制對(duì)實(shí)現(xiàn)光學(xué)片上網(wǎng)絡(luò)的潛在優(yōu)勢(shì)非常重要。通過準(zhǔn)確預(yù)測(cè)網(wǎng)絡(luò)活動(dòng)并相應(yīng)調(diào)整激光功率,可以在保持性能的同時(shí)最小化靜態(tài)功耗。隨著處理器架構(gòu)繼續(xù)發(fā)展,激光調(diào)制方案需要適應(yīng)新的設(shè)計(jì)約束和流量模式。該領(lǐng)域的持續(xù)研究有望為未來計(jì)算系統(tǒng)解鎖新的能效水平。* o9 L) W' p/ I" \; T) {( Y7 S
5 V( D! H! f% {
$ y" S# ?+ r' f% s, v參考文獻(xiàn); B$ Y! a. J. f6 X9 N" _: `9 F
[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.
5 _6 {. n/ G# @) Y* ^- V/ U! O7 a. A. _# b5 ?
- END -0 N* a! m/ X9 g1 J" L3 S2 X
5 n) Y0 s+ F7 p4 l- A- p r. ]軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
# _! Q ^9 Q- V$ a' M( e點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)/ U3 d* B/ d# r6 Y
" }) G) M# W! c: `7 s' u( l5 M
歡迎轉(zhuǎn)載
1 E& |2 v# a7 c. B5 U% |& O' P
" [9 Q0 q7 |, k2 Q: J m) z轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!
0 w. {# F7 G! i4 l v# B- y1 b2 `* J5 s9 p; H. b/ j/ |# m; e
+ R- p, X$ \8 G
; r& T- t C: h8 W' i
h15zec0g0gj64015585158.gif (16.04 KB, 下載次數(shù): 1)
下載附件
保存到相冊(cè)
h15zec0g0gj64015585158.gif
2024-9-18 13:47 上傳
8 \# d/ R& @) z1 M7 G
$ C1 T x0 u* W: ?
關(guān)注我們
4 O" C7 F& Z8 ?2 a: `+ K9 N8 d' F' V( r) b) m
/ D u- ^" }/ y3 t6 \
o2gci22howu64015585258.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
o2gci22howu64015585258.png
2024-9-18 13:47 上傳
% u7 z7 ^$ J" K2 t
| - @* I: g( A+ x) b9 R+ Y" H& h# r
cxsfmyb44sa64015585358.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
cxsfmyb44sa64015585358.png
2024-9-18 13:47 上傳
0 c+ r- w: Q$ T( M# ]' Q9 P0 v
|
1 K( J' D. E$ U; \: ]
uyczgfdbh4w64015585458.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊(cè)
uyczgfdbh4w64015585458.png
2024-9-18 13:47 上傳
$ H* t5 A4 @2 l! q3 f! A |
) f" j9 a+ f" G% a! ]8 i- C+ I5 A& ?. x# R
/ u; _5 E7 v% L) V7 k4 c
* J# U( A. s3 n$ \/ N( l/ ^
關(guān)于我們:
# |' |% B7 @! W. d9 U深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。# J8 @3 a! U) D2 V- m5 V2 D
6 F8 b! N! F/ O( z: V2 u" E: V
http://www.latitudeda.com/
, M5 G0 C3 |" o9 `(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|