|
引言
1 f. L9 y' s( V: N+ n: K, d% A隨著硅晶體管縮放接近極限,研究人員正在探索新技術以繼續(xù)提高處理器性能和效率。有前途的方向是使用片上光學網(wǎng)絡(也稱為光學片上網(wǎng)絡或光學NoC)來替代傳統(tǒng)的電氣互連。與電氣網(wǎng)絡相比,光學NoC在帶寬、延遲和功耗方面具有潛在優(yōu)勢。然而,有效管理光學NoC的功耗帶來了新的挑戰(zhàn)[1]。
' R/ t- M1 d8 k. [# f1 e( h2 s& d; {+ ]# j3 o6 K
本文將探討用于最小化光學NoC靜態(tài)功耗的激光調(diào)制方案。我們將介紹基于網(wǎng)絡活動動態(tài)調(diào)制激光功率的關鍵概念、架構和預測技術。+ C' |! d& q9 @% p* N
1 R1 O+ n, O6 O/ W9 A
+ F/ c- J/ N d q
背景' I- O- C; R8 Z4 Y
光學NoC使用光來傳輸芯片上組件之間的數(shù)據(jù)。基本構建模塊包括:
8 Q, g9 o9 O% t: M& ]激光器:光源,可以是片外或片上調(diào)制器:將電信號轉換為光信號波導:在芯片上引導光光電探測器:將光信號轉換回電信號' v$ W) s( V O( d C5 V
" w0 b3 o6 q- X8 ]/ c# R/ z
光傳輸本身非常高效,但產(chǎn)生光的激光器消耗大量功率。一個關鍵挑戰(zhàn)是光子不能像電荷那樣容易存儲。這意味著激光器通常需要持續(xù)供電,即使不主動傳輸數(shù)據(jù)時也是如此。這種靜態(tài)功耗可能占光學NoC總功耗的80-90%。3 o6 T- B% s$ p, y4 }( T
/ R# q" M1 ^6 j
為解決這個問題,研究人員開發(fā)了激光調(diào)制方案,旨在根據(jù)預測的網(wǎng)絡活動動態(tài)調(diào)整激光功率。一般方法包括:
7 a" G+ S( @# W: U7 G$ K" [- H) U/ l+ q監(jiān)控網(wǎng)絡活動指標預測未來活動相應調(diào)整激光功率重新配置網(wǎng)絡% R* l1 { s( g! d. o* h! r+ V( ?
& e9 U0 F( ]$ t2 |' k' s
讓我們看看為不同類型處理器提出的一些具體方案。
. x. l9 J' A2 q7 R5 Y( H5 x
5 h: [+ W0 h3 c多核CPU設計中的激光調(diào)制方案3 y a6 T3 \0 ~7 V
Probe' l! Z( G6 ^' s
最早提出的激光調(diào)制方案之一是Probe。使用64核架構,核心分組為4x4塊。每個塊都有專用的片外激光器,可以使用單寫多讀(SWMR)總線廣播消息。4 D v3 {7 k- A' }# B( B/ g9 n" R
0 H9 ^# z3 `5 X( J5 y |
Probe根據(jù)鏈路利用率和緩沖區(qū)利用率指標預測未來活動。使用兩種類型的預測器:用于低流量變化:過去和當前利用率的加權平均用于高變化:由利用率水平索引的模式歷史表 u+ [% O/ X" ^; V! Q3 p: _
[/ol]
6 L! a- n5 s3 v& ]" O5 g錦標賽預測器根據(jù)最近的準確性在兩者之間選擇。# x: I9 r. v/ p" o
7 N3 }% k; X$ t8 I! r ?ColdBus
8 ?! j6 B7 C D1 `- hColdBus采用不同的方法,基于L1緩存未命中預測活動。關鍵洞察是在共享內(nèi)存系統(tǒng)中,大部分網(wǎng)絡流量來自L1未命中。
* h5 B/ e/ X/ m3 r& q9 w" w& w3 Z' K9 x5 o9 u; ^3 F" E" ^2 [# }
使用類似于分支預測器的基于PC的預測器來識別可能導致未命中的指令。然后,一個時期預測器估計這些未命中何時發(fā)生。
& ]% h5 \$ \+ ~- P6 j# s! e0 f1 Y1 W8 V$ B5 j& n1 V
ColdBus還引入了一個"額外波導",為需要的站點提供應急功率。# K+ q3 D" g( k5 K% c
3 g. q' V6 X# n
PShaRe! T$ W7 K5 c& h$ i) B; y0 Z
PShaRe在之前工作的基礎上有幾個關鍵創(chuàng)新:一致性和非一致性流量的獨立網(wǎng)絡基于神經(jīng)網(wǎng)絡的非線性預測器站點之間的功率共享重用浪費的光功率進行熱調(diào)諧3 Z2 T/ }) e5 U7 Z; U; Z! s
[/ol]+ ?* ]- A. O2 f: _
圖1顯示了整體架構:/ j, H( t- X0 T8 I; J/ w- F" n- s
' Q4 Q( f! n4 ~' C! R* j
v0i132opydn64034878813.png (157.24 KB, 下載次數(shù): 1)
下載附件
保存到相冊
v0i132opydn64034878813.png
2024-9-25 01:02 上傳
* z0 \1 ]2 {7 Z" b4 q* E+ @圖1:PShaRe架構,顯示連接光學站點的功率和數(shù)據(jù)波導。2 ?4 c+ s) k4 K: q' y# _" s% W
9 Z" O) H) c( @, i( r, Y5 e) C
神經(jīng)網(wǎng)絡預測器使用14個性能計數(shù)器輸入,對每個站點在下一個時期的活動進行二元預測。' s! q, L/ f' q% Y7 E5 E& ~) J3 i
, F w$ T$ B. T5 B8 ]' @2 o+ c
BigBus: c' l$ s3 ?1 u# W* U
對于非常大的核心數(shù)(500+),需要像BigBus這樣的設計。BigBus使用分層架構,將塊簇組成更大的單元。6 ]: H/ d8 o, R5 ?2 M8 [" i6 U
3 p8 Z' U! X3 h. I3 p
圖2說明了BigBus設計:
- J/ k1 F7 ]9 f$ ^8 ]
4 ~: \# M$ p# m" @
2lsssyofp4g64034878913.png (216.89 KB, 下載次數(shù): 0)
下載附件
保存到相冊
2lsssyofp4g64034878913.png
2024-9-25 01:02 上傳
, Q" W# S& E1 B+ |" ?圖2:BigBus架構,顯示由蛇形光鏈路連接的核心和緩存庫的分層組織。
6 w4 m# u2 a, f8 x' E0 g" D' f. c, Y* ?( y- d
BigBus使用兩階段預測過程:每個站點根據(jù)等待時間和待處理事件決定是否增加/減少令牌激光控制器將當前預測與歷史數(shù)據(jù)結合4 f/ d# C' c3 |: C& ?. h- ~
[/ol]4 q0 L" d2 k0 g& W
這允許在當前條件的響應性和穩(wěn)定性之間取得平衡。+ r- R% B0 b2 T# B! G1 K
) \- \+ n, {9 J w- v: \
/ N5 c* f; a. \2 } O( L
多插槽系統(tǒng)(MULTI-SOCKET SYSTEMS)中的激光調(diào)制方案8 J4 y7 l7 `$ `* r) [# _
對于像服務器這樣的多芯片系統(tǒng),像Nuplet這樣的設計將光網(wǎng)絡擴展到插槽之間。Nuplet同時使用片內(nèi)和片間光網(wǎng)絡。
u9 q6 B+ Q4 y% A* F
; O5 M8 l# B, d/ J1 Y8 B( M片間預測機制旨在確定要流通的仲裁令牌數(shù)量。它考慮:發(fā)送到片間光學站(ICOS)的消息ICOS隊列中的待處理事件
4 u( E. I6 K W[/ol]& |% S3 [) ~: d( p: y% b
功率請求表(PRT)存儲歷史令牌計數(shù)。預測將PRT值與當前流量趨勢和隊列狀態(tài)結合。) s. c$ I. J9 O! J1 K' C
# B: y, i3 l, `7 JGPU設計中的激光調(diào)制方案3 O- _* w7 \) p- y* f6 f
由于GPU側重于內(nèi)存帶寬而非延遲,因此帶來了獨特的挑戰(zhàn)。GPUOpt設計將光學NoC適配于GPU架構。9 e, s- ~: Q' }3 I7 T3 Q/ J: A
{+ e4 ~/ _4 ` f% N1 E" y圖3顯示了GPUOpt的整體架構:
/ g4 j |3 e. N" }& Y8 q# e* Z, p6 r1 y: @2 L9 V+ D$ I
m5tbfrm3byw64034879013.png (198.05 KB, 下載次數(shù): 0)
下載附件
保存到相冊
m5tbfrm3byw64034879013.png
2024-9-25 01:02 上傳
+ A' |% P% k$ u3 C( D$ M
圖3:GPU光學NoC的架構,顯示由光網(wǎng)絡連接的SM和LLC集群。- M& ?! d- e4 A% N9 {7 g1 i; ?
$ @7 G% Q& L% I$ L- `
GPUOpt對流式多處理器(SM)站點和最后級緩存(LLC)站點使用不同的預測機制:
& C% X( ]8 o" s+ Q6 H4 L1. SM站點使用基于以下因素的受限預測器(Restr_Pred):
# i o# ^, U* f/ W; @4 p7 H/ p! Z) Z接收的消息發(fā)送的消息等待時間' I* T; B y8 y' ^4 G! Z
! N( Q9 t) ~, f$ _' s) k. w5 P
2. LLC站點使用考慮以下因素的靈活預測器(Flex_Pred):
O6 p7 }1 [: u$ u- `5 K接收的消息發(fā)送的消息待處理事件
x& L3 J8 Z/ o& w1 b$ g8 c! V- P" O
激光控制器將這些預測結合起來,確定整體功率需求。
/ F; W9 m" v. c* A. |2 g
" b2 q; k2 x# w4 Y; X' x9 k' R8 x8 R0 q& k
關鍵概念和趨勢
3 y$ X3 I/ W8 P& z9 N9 B/ L雖然具體方案各不相同,但一些共同主題和最佳實踐浮現(xiàn)出來:0 z+ N' j3 S$ L" b$ c6 u' x' V* T5 {3 V
, L/ f# \! |" w7 N& r; M! J
1.將時間劃分為固定時期進行預測和重新配置
2 c! W8 S- }# H/ W3 |- H8 V r F2. 使用多個輸入指標:* Y$ I2 a9 I- k
網(wǎng)絡利用率緩沖區(qū)占用率緩存未命中率指令類型待處理事件! F3 r3 V, m, W
3. 將當前指標與歷史數(shù)據(jù)結合
7 j# X6 b" D# p2 q6 a4. 使用非線性預測函數(shù)(如神經(jīng)網(wǎng)絡)捕捉復雜關系( b( x: R* C& F' K E
5. 對不同流量類型進行單獨預測(如一致性與非一致性)
9 b# i( o2 i( T6. 分層設計以實現(xiàn)可擴展性
7 s( `1 e: o, @7 q0 d5 n7. 盡可能重用未使用的光功率$ q7 {) A& @& i9 ~& M' |! j
8. 為特定架構經(jīng)驗性地調(diào)整預測參數(shù). F/ D" o: I8 O5 y6 [
+ E9 Z0 q9 n7 k. e& }: }- Y
圖4說明了有效激光調(diào)制可能帶來的功率節(jié)。
2 y' q8 m2 h- j* l% ]4 l1 z
) X2 Z( @4 K8 T4 \0 A7 i# g
om02xkr3dhc64034879113.png (100.12 KB, 下載次數(shù): 0)
下載附件
保存到相冊
om02xkr3dhc64034879113.png
2024-9-25 01:02 上傳
5 Y1 P0 c4 W, ^
圖4:ideal、Probe和ColdBus方案在各種基準測試中的相對激光功耗。& y! i! b: E. H7 y. ]
& {+ ]# u* t5 |; D5 b7 ~8 r& i
1 q" A( q4 |, ]. b未來方向$ I) \: G- j" y0 S: z
隨著光學NoC從研究轉向實際實施,可以期待這些技術的進一步完善。方向包括:
( J9 \. u& \. G用于更準確預測的機器學習技術與應用層知識的集成在運行時調(diào)整參數(shù)的自適應方案考慮電氣和光網(wǎng)絡的整體優(yōu)化針對新興工作負載(如AI加速)的專門化
6 |; x9 J- Y- c/ ^6 D4 x- C' a8 b
0 O. r( p! w, w1 s$ K! A
# g2 P0 L3 ~ @+ B- ]結論! g N6 L/ v, u5 B
有效的激光調(diào)制對實現(xiàn)光學片上網(wǎng)絡的潛在優(yōu)勢非常重要。通過準確預測網(wǎng)絡活動并相應調(diào)整激光功率,可以在保持性能的同時最小化靜態(tài)功耗。隨著處理器架構繼續(xù)發(fā)展,激光調(diào)制方案需要適應新的設計約束和流量模式。該領域的持續(xù)研究有望為未來計算系統(tǒng)解鎖新的能效水平。
7 y+ H i$ c+ r! C; ?
' L8 V0 ~+ _& r) v- Y$ q N8 d- X- A$ d* ^" N/ V! [; r
參考文獻
' I2 D% b) U; U, | n[1] M. Nikdast, S. Pasricha, G. Nicolescu, and A. Seyedi, Eds., Silicon Photonics for High-Performance Computing and Beyond, 1st ed. Boca Raton, FL, USA: CRC Press, 2021.& }$ V9 N& Y8 K- @8 c
* q! u* I3 _6 Q9 q. @# I5 B' E0 \- END -7 B. R6 x i5 \4 Q! T
, s8 R% _2 Q( X
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。+ K0 W0 b6 e. {
點擊左下角"閱讀原文"馬上申請
" e' V) |0 ^6 {7 Y9 k6 N% W' O, S/ ~! I: h6 G
歡迎轉載2 W* g* u- {$ n/ C2 P
6 k6 p! I0 p4 f! K! o, W# `轉載請注明出處,請勿修改內(nèi)容和刪除作者信息!, c& R& ^. `5 a1 N
e$ U9 T3 V- U5 \- t+ z
, D1 W5 H0 a- F& c5 ~
# t: N3 I" { ?5 D* ]
tlesfwadvw464034879213.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
tlesfwadvw464034879213.gif
2024-9-25 01:02 上傳
, |, p, s7 i+ F, I+ y& W4 A( r. o+ g; v
關注我們
0 N0 y! L" q3 Y) b4 G
8 G. s% b2 w) f; M' |$ }# p8 Z
0 x% z4 P3 R% t: @0 w" U5 q! ~) x' J
0rzxntnecf364034879313.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
0rzxntnecf364034879313.png
2024-9-25 01:02 上傳
: U6 V: }. J- P5 X8 Z
| # M0 S$ r% T2 |! S9 d; Z! X7 V8 C
wklhaednp3g64034879413.png (82.79 KB, 下載次數(shù): 1)
下載附件
保存到相冊
wklhaednp3g64034879413.png
2024-9-25 01:02 上傳
Y8 \& {7 w) D; G3 H |
5 d9 k0 ~2 c* n, e
v05awecejyj64034879513.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
v05awecejyj64034879513.png
2024-9-25 01:02 上傳
9 ^' [6 K" W# o$ q) m. d | 1 H# k g; I, s- u! s$ t4 e' n
( M. [1 W( N+ l. l- y, e
! @! E8 ^; f( m$ A$ s ~7 Q. L- i
6 x5 F! w" U# Z關于我們:, k, g* L) \+ ~4 M0 g. V+ f
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。# q( h- u: u& }1 S; {+ b
+ n9 e+ u+ p5 h# xhttp://www.latitudeda.com/
+ J& Z$ L7 C0 {7 Z(點擊上方名片關注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|