|
引言7 T6 d% J% \- z' H5 [
本文介紹特斯拉公司開發(fā)的創(chuàng)新協(xié)議:特斯拉以太網(wǎng)傳輸協(xié)議(Tesla Transport Protocol over Ethernet,簡稱TTPoE)。
/ q& K1 {( k8 U* Q9 r% ]
8 `" J$ [# v; W" \; e( ]: i在人工智能(AI)和機器學習快速發(fā)展的今天,對更快、更高效的數(shù)據(jù)處理和通信的需求不斷增長。特斯拉公司憑借其Dojo超級計算機在AI計算領(lǐng)域取得了重大突破。TTPoE協(xié)議是這個突破性系統(tǒng)的核心。
9 {* s' `9 [+ F+ B1 N
' b' H% ^; d+ f
sqotqmpy1yr64068664111.png (153.58 KB, 下載次數(shù): 0)
下載附件
保存到相冊
sqotqmpy1yr64068664111.png
2024-10-10 02:41 上傳
. e2 ?! _, p8 g; I& E
圖1:說明了問題陳述和特斯拉AI理想結(jié)構(gòu)的特征。& F0 \% b, y$ o
- G1 v) [+ K8 ^
TTPoE協(xié)議的誕生
( S- Q, _) J, w, V" L# K* a8 A傳統(tǒng)網(wǎng)絡(luò)協(xié)議如TCP/IP雖然穩(wěn)定且應(yīng)用廣泛,但在面對AI工作負載的極端需求時顯露出局限性。這些協(xié)議常常受到CPU軟件內(nèi)核的限制,導(dǎo)致延遲增加和吞吐量受限。此外,高性能計算中常用的無損結(jié)構(gòu)雖然可靠,但復(fù)雜性高且脆弱,一旦出現(xiàn)問題可能影響整個網(wǎng)絡(luò)。/ b* I5 b" a* w& m9 \8 L" I- Q
- n9 G. k* H' p9 R
特斯拉識別出需要一種能夠提供以下特性的網(wǎng)絡(luò)結(jié)構(gòu):最低延遲最高帶寬簡單的軟件實現(xiàn)僅限第2層操作高效的集體通信和數(shù)據(jù)攝取單一應(yīng)用環(huán)境下的低擁塞
$ Q7 G* S+ d9 c# g$ r[/ol]
i% h n: u0 K/ w GTTPoE:硬件執(zhí)行的傳輸協(xié)議. \% ~, W* o3 ~9 o& j
TTPoE是一種完全由硬件執(zhí)行的點對點以太網(wǎng)傳輸層協(xié)議。這種方法具有多項優(yōu)勢:垂直整合:將Dojo遠程直接內(nèi)存訪問(RDMA)功能擴展到光纖結(jié)構(gòu)。"有損"以太網(wǎng)網(wǎng)絡(luò):這種設(shè)計選擇有助于更容易的擴展、更高的成本效益和更好的擁塞管理。與第三方硬件兼容:TTPoE使用標準以太網(wǎng)II幀,確保廣泛的兼容性。, v% b4 }" k+ K1 L& i
[/ol]9 i/ ^8 C0 Y( V& a
2 A9 l: N( t- L; h8 s+ r2 K5 c
jjj2pvf01tw64068664212.png (124.7 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jjj2pvf01tw64068664212.png
2024-10-10 02:41 上傳
8 x+ E/ N7 x7 V1 X1 S: W
圖2:比較了標準TCP/IP棧與使用TTPoE的Dojo棧的OSI層。
. f$ |2 G+ c" p. B6 x$ E( n0 O( n% v6 z+ ^
TTPoE通過在硬件中實現(xiàn)傳輸層來簡化網(wǎng)絡(luò)棧,同時在較低層保持與標準以太網(wǎng)的兼容性。這種方法允許AI計算節(jié)點之間更快、更高效的通信。# X/ Q" M" Q0 ]9 p4 P* \( q
G D9 i+ G+ p9 ?+ |
TTPoE鏈路通信0 B! C% m+ l. g% D% k) w. a W9 \; L" U2 X
TTPoE協(xié)議使用簡化的通信過程進行設(shè)備間的數(shù)據(jù)傳輸。; d9 y7 u+ [' c2 m5 {. S. f- |
3 e' V& s1 }" Q- [- G9 z( I
fg5dyhxfo1u64068664312.png (216.65 KB, 下載次數(shù): 0)
下載附件
保存到相冊
fg5dyhxfo1u64068664312.png
2024-10-10 02:41 上傳
Y2 ^7 C: T; y
圖3:展示了TTPoE鏈路通信的例子,包括正常傳輸和涉及數(shù)據(jù)包丟失或亂序傳輸?shù)那闆r。+ d* ^, |7 |# G
# g+ I0 M- I" r4 G8 Y! Z. `/ d在正常傳輸中,協(xié)議高效地在設(shè)備間移動數(shù)據(jù),開銷最小。當數(shù)據(jù)包丟失或亂序到達時,TTPoE使用NACK(負面確認)系統(tǒng)請求重傳,確保數(shù)據(jù)完整性的同時不影響性能。( ]1 y7 S) X9 A& F
9 M" ?& [+ [, u, Y: _TTPoE狀態(tài)機
+ S2 V3 t( a- N. yTTPoE狀態(tài)機是傳統(tǒng)TCP狀態(tài)機的簡化版本,針對硬件執(zhí)行進行了優(yōu)化。 P h0 z, e) H7 y; Q/ \7 b
" ]) r6 `: z7 m/ T" `8 a
ktpskdg1j5l64068664412.png (218.84 KB, 下載次數(shù): 0)
下載附件
保存到相冊
ktpskdg1j5l64068664412.png
2024-10-10 02:41 上傳
& J% K+ `' K D6 f. ~" \: \7 p
圖4:比較了TTPoE狀態(tài)機與標準TCP狀態(tài)機,強調(diào)了為硬件執(zhí)行所做的修改。7 ]( q; a1 N3 m8 t# S7 F
" p1 T: b8 C3 P2 A主要修改包括:更快的狀態(tài)轉(zhuǎn)換,適合微秒級協(xié)議不依賴虛擬內(nèi)存,僅使用物理內(nèi)存無需軟件參與的自動OPEN/CLOSE操作
7 G$ m) k) C! F/ C6 Y/ f# \[/ol]- @+ i6 b+ m$ r* \& d) Z
這些變化使TTPoE能夠以極高的效率運行,相比軟件協(xié)議大大降低了延遲并提高了吞吐量。. F2 i7 D7 a9 M( `
' I# c6 q" I1 Y$ _! o! ~# C
TTPoE頭部幀
; O6 e: X8 P# J- d, u% O4 OTTPoE協(xié)議使用基于以太網(wǎng)II的簡單高效的頭部格式。
+ V8 c) r3 P; x- n' q1 a8 T8 Q
4 {, [, w5 Y% j5 J/ u
vlfhyao0xsm64068664512.png (192.64 KB, 下載次數(shù): 0)
下載附件
保存到相冊
vlfhyao0xsm64068664512.png
2024-10-10 02:41 上傳
4 u: k$ Q8 V+ _5 a) Z
圖5:詳細說明了TTPoE頭部幀結(jié)構(gòu)。
3 E& _: j& ~! \7 H. R- j A {* d
: i3 B' A3 b: J4 tTTPoE頭部的顯著特點包括:使用從SOW物理地址硬件哈希派生的MAC地址每個端點支持512個并發(fā)唯一鏈接虛擬通道(VC)用于非阻塞控制、信號量、完成和數(shù)據(jù)移動
6 }: @ S% `: R+ l; A# j }0 v' m[/ol]
! O" ^* ^# g3 b3 v: }& D- y有損協(xié)議設(shè)計; O; `* R- P ~) s
與許多追求無損通信的高性能計算結(jié)構(gòu)不同,TTPoE采用了"有損"設(shè)計理念。
- `5 C' {4 Y8 t; D( R' `: A) f( [/ X/ _6 u* g
p4zdzu2ryus64068664613.png (248.35 KB, 下載次數(shù): 1)
下載附件
保存到相冊
p4zdzu2ryus64068664613.png
2024-10-10 02:41 上傳
* \8 B0 K$ T# [6 D" H7 W$ f8 a: R
圖6:解釋了TTPoE作為"有損"傳輸協(xié)議的概念。4 s' I- `! ?- I. g
6 ~, x' E: y2 _# ^! W在這種情況下,"有損"意味著底層介質(zhì)預(yù)期偶爾會丟失數(shù)據(jù)包,并在需要時重試傳輸。這種方法類似于TCP但不同于UDP,仍然保證完整的數(shù)據(jù)包傳輸,同時允許更靈活和可擴展的網(wǎng)絡(luò)設(shè)計。: ? N( Q/ j& Y4 W& P3 Q6 Y
" R# @* j5 A' t" k: XTTPoE有損設(shè)計的關(guān)鍵方面包括:在擁塞或錯誤情況下默認采用數(shù)據(jù)包丟棄和重放投機傳輸受SRAM大小限制本地SRAM保留未確認數(shù)據(jù)以便潛在重放SRAM約束限制重放風暴的規(guī)模
3 b) [( j3 P. L1 X[/ol]
9 Y. g5 }2 J3 b) y% `- z' N擁塞管理
8 F$ V. x6 o' s$ WTTPoE采用分布式方法進行擁塞管理,摒棄了集中控制機制。
% l7 a- s2 F& P0 Y) G, ~$ }, b! v2 q- J) ^) r
y3srmw3pmfc64068664713.png (177.88 KB, 下載次數(shù): 0)
下載附件
保存到相冊
y3srmw3pmfc64068664713.png
2024-10-10 02:41 上傳
- D% d0 Q1 O& p! g5 g2 x圖7:概述了TTPoE的擁塞管理方法。4 M$ R+ ^* z) S5 c
- j2 A; C- g7 W. N
TTPoE擁塞管理的主要特點包括:指數(shù)回退和速率控制由本地鏈路TX通道處理容錯流可以"刷新"網(wǎng)絡(luò)并移除壞鏈路沒有傳統(tǒng)的擁塞控制機制,如PFC、Nagle算法、QoS或令牌
: j8 H' R' D+ Q B B[/ol]
$ ^: v6 c$ N, \4 ~6 w8 O0 `) u這種分布式方法允許更可擴展和彈性的網(wǎng)絡(luò)性能,特別是在大規(guī)模AI計算環(huán)境中。' P, L9 z$ ~. D( t
! v3 M6 x5 R d2 g* q. l9 ~
TTP MAC IP塊
: m( j. J; E7 m* V- ?( b* eTTPoE中的傳輸層硬件作為IP塊實現(xiàn),位于片上網(wǎng)絡(luò)(NoC)和標準以太網(wǎng)MAC之間。6 r9 Y( @6 t7 J/ j% |- U
2 x- J0 R7 X; P& R% W
e12wuc2h2bk64068664813.png (155.36 KB, 下載次數(shù): 0)
下載附件
保存到相冊
e12wuc2h2bk64068664813.png
2024-10-10 02:41 上傳
: ^& B4 \# h% \5 D: l( ^圖8:顯示了TTP MAC IP塊在網(wǎng)絡(luò)棧中的位置。
+ O2 g( a$ S& I# X
0 A& ^+ m* D9 a1 _& R& @這個IP塊執(zhí)行幾個關(guān)鍵功能:將64B/周期NoC數(shù)據(jù)包轉(zhuǎn)換并合并為最大1kB的TTP以太網(wǎng)數(shù)據(jù)包使用AXI-S或SOP/EOP格式通信可選激活標準MAC功能,如暫停數(shù)據(jù)包、計數(shù)器和LLDP
4 E: m" ]& E9 J; S[/ol]
7 B* }( L7 d; @& }TTP MAC IP可以在FPGA和硅實現(xiàn)中實例化,提供部署靈活性。; f7 L1 N; \( Q- O7 n
2 P, P/ p% ] c5 ^0 E- J( o
實際性能
8 s2 X! y0 \+ X0 @+ e( S特斯拉已在其Dojo超級計算機中實施TTPoE,取得了令人印象深刻的性能指標。
A4 b8 C2 |5 d4 r: ?* Y+ l2 N, H
uimq30ub02v64068664913.png (163.12 KB, 下載次數(shù): 0)
下載附件
保存到相冊
uimq30ub02v64068664913.png
2024-10-10 02:41 上傳
0 Y0 ~- n9 n j9 j9 R
圖9:展示了TTPoE與其他網(wǎng)絡(luò)技術(shù)相比的性能結(jié)果。
' V5 ~' _& n ~+ q
1 W* O0 l3 o Y/ \% X- T, Y這些在高性能網(wǎng)絡(luò)交換機上測量的結(jié)果展示了TTPoE在延遲、帶寬和全歸約性能方面的能力。該協(xié)議在保持大規(guī)模高吞吐量方面表現(xiàn)出色,這對大型AI訓(xùn)練工作負載來說尤為重要。
a3 P8 V( p, O+ w6 r
* q! o9 g- u: L# Y/ \2 Z結(jié)論
* z5 T2 w) G) U% {5 `" u" P$ h特斯拉的以太網(wǎng)傳輸協(xié)議代表了AI超級計算網(wǎng)絡(luò)技術(shù)的進步。通過將傳輸層重新構(gòu)想為硬件執(zhí)行的有損協(xié)議,TTPoE在保持與標準以太網(wǎng)基礎(chǔ)設(shè)施兼容的同時實現(xiàn)了卓越的性能。隨著AI工作負載規(guī)模和復(fù)雜性的不斷增長,像TTPoE這樣的創(chuàng)新將在推動機器學習和人工智能可能性邊界方面發(fā)揮關(guān)鍵作用。
: j( w, w. S! ^8 ]/ ^) T. Z
1 G# ] e1 z5 b, y- ]參考文獻+ @3 b; M7 H v4 p7 z: g
[1] E. Quinnell, "Tesla Transport Protocol over Ethernet (TTPoE): A new lossy, Exa-Scale fabric for the Dojo AI Supercomputer," in Hot Chips 2024, 2024.
) N% e5 ^( q8 p3 e! \; L* R: ~9 V+ u$ ~$ ]0 p# A
- END -
1 m8 y9 P) S1 K- c
# ]2 Q" {* @# S* Z9 M軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。4 n* I. L" y3 j$ o
點擊左下角"閱讀原文"馬上申請
. @! h) i0 O$ {2 X- w: g/ A _- b* F; D* A2 c( `
歡迎轉(zhuǎn)載% T! v; @/ b5 B' Y! H& i
9 V6 h B7 c" H; a5 ?! `轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!% p) I+ [; @" y* w
, E3 q/ g# @6 n$ W
" w6 X* N' J# T! C0 n1 h& }" D- |" ^1 h; |5 B* C$ s8 F7 V
mz3nh2fhhp464068665013.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
mz3nh2fhhp464068665013.gif
2024-10-10 02:41 上傳
6 s8 u, ?4 [* ?8 N* g8 L: x1 i6 Q" M# U: X9 D4 E7 L4 C" I3 W) }5 Z
關(guān)注我們
2 p! J) ]2 n5 ?- T
]1 V! o, x/ f* E' f- l# I9 B, _5 A7 C- p' V5 ^
yroq3gxl5fl64068665113.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
yroq3gxl5fl64068665113.png
2024-10-10 02:41 上傳
4 I* c- @; p2 e8 w' ]' a+ ~; N |
; S) f, `6 s1 u; s& u5 }" X
jx4nbhzvjzq64068665213.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
jx4nbhzvjzq64068665213.png
2024-10-10 02:41 上傳
6 p: P! r- K; o' M; ^. N |
7 L: y4 g& T+ n
rymxhen4y3t64068665313.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
rymxhen4y3t64068665313.png
2024-10-10 02:41 上傳
: ^) ^( o; q7 d |
) A% y+ J" c7 x" i o2 |4 D9 x% B6 r$ G8 {( E
. {* b8 ?9 k' e% E+ z- w+ P/ C' l+ v. @8 D8 g; i
關(guān)于我們:5 M) A. ]5 U2 i
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。- a! S: A, M- C, }) g4 F
% A' x5 G7 y* w! k2 J
http://www.latitudeda.com/
: z5 q4 M- T' n& G# V(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|