|
引言+ m2 \/ I6 `" ?- B5 _7 s6 G
本文介紹特斯拉公司開發(fā)的創(chuàng)新協議:特斯拉以太網傳輸協議(Tesla Transport Protocol over Ethernet,簡稱TTPoE)。
7 [! ?* |( H! z/ {( T
* _8 o& h' K, L2 {; q+ o在人工智能(AI)和機器學習快速發(fā)展的今天,對更快、更高效的數據處理和通信的需求不斷增長。特斯拉公司憑借其Dojo超級計算機在AI計算領域取得了重大突破。TTPoE協議是這個突破性系統(tǒng)的核心。
. I! r$ Y# n" x6 g9 M
; U5 H4 j: g6 L J
sqotqmpy1yr64068664111.png (153.58 KB, 下載次數: 0)
下載附件
保存到相冊
sqotqmpy1yr64068664111.png
2024-10-10 02:41 上傳
' {5 V1 {! O6 A4 ^
圖1:說明了問題陳述和特斯拉AI理想結構的特征。
$ y, b& U. t4 o) ?9 A! S+ C9 G; L8 d# P8 C
TTPoE協議的誕生, d w4 x* _+ M P
傳統(tǒng)網絡協議如TCP/IP雖然穩(wěn)定且應用廣泛,但在面對AI工作負載的極端需求時顯露出局限性。這些協議常常受到CPU軟件內核的限制,導致延遲增加和吞吐量受限。此外,高性能計算中常用的無損結構雖然可靠,但復雜性高且脆弱,一旦出現問題可能影響整個網絡。" l. z/ s2 x: C% p" z4 G- ~
* X7 x1 R: Y a特斯拉識別出需要一種能夠提供以下特性的網絡結構:最低延遲最高帶寬簡單的軟件實現僅限第2層操作高效的集體通信和數據攝取單一應用環(huán)境下的低擁塞. ^9 Q; {/ t$ _3 O- ^ \
[/ol]
+ R5 H1 ?- d& K1 u l0 J4 _; OTTPoE:硬件執(zhí)行的傳輸協議/ ]: Q0 X9 p% y" h- A8 e! {& W; T
TTPoE是一種完全由硬件執(zhí)行的點對點以太網傳輸層協議。這種方法具有多項優(yōu)勢:垂直整合:將Dojo遠程直接內存訪問(RDMA)功能擴展到光纖結構。"有損"以太網網絡:這種設計選擇有助于更容易的擴展、更高的成本效益和更好的擁塞管理。與第三方硬件兼容:TTPoE使用標準以太網II幀,確保廣泛的兼容性。/ `% c4 |9 S, O1 W( R+ v
[/ol]
T) C6 ~ ` d9 g$ \* X4 h) P% X1 t/ G7 X! N& Z5 h
jjj2pvf01tw64068664212.png (124.7 KB, 下載次數: 0)
下載附件
保存到相冊
jjj2pvf01tw64068664212.png
2024-10-10 02:41 上傳
* U7 s8 k, z% d2 D
圖2:比較了標準TCP/IP棧與使用TTPoE的Dojo棧的OSI層。
+ f: Q# M% x9 q: e- x, x0 ]' V0 E* F5 l' [
TTPoE通過在硬件中實現傳輸層來簡化網絡棧,同時在較低層保持與標準以太網的兼容性。這種方法允許AI計算節(jié)點之間更快、更高效的通信。
3 i) e9 l. U, j3 R$ R5 N% ?
K5 Z/ s% b5 n" S G+ |TTPoE鏈路通信( z2 `/ `$ ]+ D8 J4 ?
TTPoE協議使用簡化的通信過程進行設備間的數據傳輸。" p+ u/ l2 V4 A g& r& Q I8 ^( k! U
* M7 I) j, P6 O
fg5dyhxfo1u64068664312.png (216.65 KB, 下載次數: 0)
下載附件
保存到相冊
fg5dyhxfo1u64068664312.png
2024-10-10 02:41 上傳
% H; B8 \* G( {圖3:展示了TTPoE鏈路通信的例子,包括正常傳輸和涉及數據包丟失或亂序傳輸的情況。
9 E! u0 b/ ?# z5 W* C8 ?
3 ~5 x8 u4 z8 Y* [' G8 y在正常傳輸中,協議高效地在設備間移動數據,開銷最小。當數據包丟失或亂序到達時,TTPoE使用NACK(負面確認)系統(tǒng)請求重傳,確保數據完整性的同時不影響性能。
! O4 G6 L8 u2 v5 D+ A- z
! L4 q6 |4 m8 w: N: ^' aTTPoE狀態(tài)機/ o) b1 S9 E! W. c O
TTPoE狀態(tài)機是傳統(tǒng)TCP狀態(tài)機的簡化版本,針對硬件執(zhí)行進行了優(yōu)化。
, W2 j1 `2 d4 L* J$ s2 b6 t% m$ u" A% i% [. U; N
ktpskdg1j5l64068664412.png (218.84 KB, 下載次數: 0)
下載附件
保存到相冊
ktpskdg1j5l64068664412.png
2024-10-10 02:41 上傳
, ?* E$ n7 E4 R; g; b9 V. J圖4:比較了TTPoE狀態(tài)機與標準TCP狀態(tài)機,強調了為硬件執(zhí)行所做的修改。# b/ k; w4 D4 q, b
* a; Q& i7 Z1 v* |; Y' l) ]
主要修改包括:更快的狀態(tài)轉換,適合微秒級協議不依賴虛擬內存,僅使用物理內存無需軟件參與的自動OPEN/CLOSE操作+ q6 _, P3 g, P, W
[/ol]( D% ]5 q, l( l8 Y( I* z
這些變化使TTPoE能夠以極高的效率運行,相比軟件協議大大降低了延遲并提高了吞吐量。: v& E7 ]# l# x+ z' h$ u1 v5 p9 F
/ Q$ u! d4 | ?8 a/ G6 g gTTPoE頭部幀: ]1 f* F" u. y1 K
TTPoE協議使用基于以太網II的簡單高效的頭部格式。
& p. v' D0 d( c0 | y# e+ i6 O, T# ? B; Q
vlfhyao0xsm64068664512.png (192.64 KB, 下載次數: 0)
下載附件
保存到相冊
vlfhyao0xsm64068664512.png
2024-10-10 02:41 上傳
: O$ [" S3 w( e X7 e$ w圖5:詳細說明了TTPoE頭部幀結構。
' t4 }3 k- B6 s8 d2 m0 a. d+ l) S# @
TTPoE頭部的顯著特點包括:使用從SOW物理地址硬件哈希派生的MAC地址每個端點支持512個并發(fā)唯一鏈接虛擬通道(VC)用于非阻塞控制、信號量、完成和數據移動0 K& L4 T! l: _* h- G6 Z
[/ol]
, ~4 g' ?0 ~! ?8 c) ] _$ C有損協議設計
+ J7 |2 K1 _: O與許多追求無損通信的高性能計算結構不同,TTPoE采用了"有損"設計理念。
* o+ q& ~1 S* H6 \) P
% n* R9 W4 j* ~/ {& Z9 B; n1 I: Z1 c
p4zdzu2ryus64068664613.png (248.35 KB, 下載次數: 1)
下載附件
保存到相冊
p4zdzu2ryus64068664613.png
2024-10-10 02:41 上傳
1 m H0 n M& m& `圖6:解釋了TTPoE作為"有損"傳輸協議的概念。' s4 Q: R9 K9 o6 E
0 q. t2 c. Y% R, k, ~- Z. N在這種情況下,"有損"意味著底層介質預期偶爾會丟失數據包,并在需要時重試傳輸。這種方法類似于TCP但不同于UDP,仍然保證完整的數據包傳輸,同時允許更靈活和可擴展的網絡設計。% E/ D3 d% J2 L3 S$ f
) K& B9 c* ]$ Z' Z+ ]
TTPoE有損設計的關鍵方面包括:在擁塞或錯誤情況下默認采用數據包丟棄和重放投機傳輸受SRAM大小限制本地SRAM保留未確認數據以便潛在重放SRAM約束限制重放風暴的規(guī)模
i0 P4 S3 |' f! H9 m! D& R[/ol]2 A E9 S3 B% ]9 X1 A4 q
擁塞管理; B$ Y: N$ `- k4 x
TTPoE采用分布式方法進行擁塞管理,摒棄了集中控制機制。! q) B' y4 @, {
8 Z! |0 k) ^8 _; y+ q+ c7 t; S# ?
y3srmw3pmfc64068664713.png (177.88 KB, 下載次數: 0)
下載附件
保存到相冊
y3srmw3pmfc64068664713.png
2024-10-10 02:41 上傳
) p$ _: C& D5 s
圖7:概述了TTPoE的擁塞管理方法。& s H W. t: O; C( R3 H
. A% `2 {* I: G1 E7 u
TTPoE擁塞管理的主要特點包括:指數回退和速率控制由本地鏈路TX通道處理容錯流可以"刷新"網絡并移除壞鏈路沒有傳統(tǒng)的擁塞控制機制,如PFC、Nagle算法、QoS或令牌7 H. t. j" k0 U& [- c
[/ol]; y9 N: a# `: d* m& g
這種分布式方法允許更可擴展和彈性的網絡性能,特別是在大規(guī)模AI計算環(huán)境中。; d/ `+ D$ E$ e ]! p) S
2 S9 e5 P- O6 [: V
TTP MAC IP塊
( {/ `2 A- S; D( C0 iTTPoE中的傳輸層硬件作為IP塊實現,位于片上網絡(NoC)和標準以太網MAC之間。7 u/ F) ]5 S! M0 s8 o6 z
3 s. A; u& q) D) t0 q
e12wuc2h2bk64068664813.png (155.36 KB, 下載次數: 0)
下載附件
保存到相冊
e12wuc2h2bk64068664813.png
2024-10-10 02:41 上傳
% ^& ?' k1 \3 o, p2 @% Z( @
圖8:顯示了TTP MAC IP塊在網絡棧中的位置。
- q* h% t$ }' ?' X! {+ ]' ]; Q
* A8 w5 i, [+ e! H這個IP塊執(zhí)行幾個關鍵功能:將64B/周期NoC數據包轉換并合并為最大1kB的TTP以太網數據包使用AXI-S或SOP/EOP格式通信可選激活標準MAC功能,如暫停數據包、計數器和LLDP6 w$ [3 T3 I% `0 F9 [. l3 K
[/ol]: J& @7 T. x' ?' E
TTP MAC IP可以在FPGA和硅實現中實例化,提供部署靈活性。9 ]* ]: w3 A$ J# z x8 T l7 Q
) N Z# S) o5 J1 }9 C* a( i# P實際性能* v- l0 l- [5 x0 W) U5 j' d d
特斯拉已在其Dojo超級計算機中實施TTPoE,取得了令人印象深刻的性能指標。0 `/ ^* P+ T, K3 v1 @- s
) \2 Y; a& k4 k
uimq30ub02v64068664913.png (163.12 KB, 下載次數: 0)
下載附件
保存到相冊
uimq30ub02v64068664913.png
2024-10-10 02:41 上傳
' |" V/ B; G5 a; p圖9:展示了TTPoE與其他網絡技術相比的性能結果。
( }, H1 s- p# q: M# @
& u6 H- d9 L& f4 O7 \這些在高性能網絡交換機上測量的結果展示了TTPoE在延遲、帶寬和全歸約性能方面的能力。該協議在保持大規(guī)模高吞吐量方面表現出色,這對大型AI訓練工作負載來說尤為重要。; U9 c9 ^! S4 @: j& }
" B9 v2 T. N2 p* w5 s. [. p. M
結論
2 r! j2 n9 B; t, I9 a3 ^特斯拉的以太網傳輸協議代表了AI超級計算網絡技術的進步。通過將傳輸層重新構想為硬件執(zhí)行的有損協議,TTPoE在保持與標準以太網基礎設施兼容的同時實現了卓越的性能。隨著AI工作負載規(guī)模和復雜性的不斷增長,像TTPoE這樣的創(chuàng)新將在推動機器學習和人工智能可能性邊界方面發(fā)揮關鍵作用。3 {6 |0 ~6 v( f
: j7 Z N! k" [6 P6 B6 r參考文獻+ @$ f/ H8 B% S& L( S8 l2 w$ V. T
[1] E. Quinnell, "Tesla Transport Protocol over Ethernet (TTPoE): A new lossy, Exa-Scale fabric for the Dojo AI Supercomputer," in Hot Chips 2024, 2024.
7 k9 T2 e0 F& F8 c1 `- H6 Q4 q0 b) R f+ [$ C3 _' Z
- END -
3 I7 J( c1 }; ?% T8 x
4 l3 w$ V( s& z4 V) P* B6 _軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。; U+ V! _- p, A/ [$ a
點擊左下角"閱讀原文"馬上申請8 P+ w* y1 ?( G! y" D% `# s* k9 t; w1 Z
1 X$ E. d3 {: |7 ^* d歡迎轉載
' V3 h4 M5 ^4 S q, J; @
0 ]2 w( I; `, h; m' a5 x _1 C, n- j& G/ h轉載請注明出處,請勿修改內容和刪除作者信息!7 x' l Y: Y% [' Z9 \5 D! h
8 G. O/ X1 [1 I
& c! Z$ m( v! C
: Z5 U9 K" E' u H3 b' L; N
mz3nh2fhhp464068665013.gif (16.04 KB, 下載次數: 0)
下載附件
保存到相冊
mz3nh2fhhp464068665013.gif
2024-10-10 02:41 上傳
+ G8 D% Z. y+ ~0 y3 U# a
% M8 ~& p- H8 @4 r& }% x D5 ^6 R關注我們
5 K0 v: [# K, r6 ?& B& m5 {# m# ?: e3 P6 p: m
& r9 K" ]( R: K- B9 W. m
yroq3gxl5fl64068665113.png (31.33 KB, 下載次數: 0)
下載附件
保存到相冊
yroq3gxl5fl64068665113.png
2024-10-10 02:41 上傳
. O0 ^+ { s/ K. Q$ {* K; H
|
6 r' q: w+ H3 o: _2 V6 n
jx4nbhzvjzq64068665213.png (82.79 KB, 下載次數: 0)
下載附件
保存到相冊
jx4nbhzvjzq64068665213.png
2024-10-10 02:41 上傳
% w" h! S8 ^+ P6 i- Q4 `
|
$ z% e) m$ ~' \& o5 k9 B
rymxhen4y3t64068665313.png (21.52 KB, 下載次數: 0)
下載附件
保存到相冊
rymxhen4y3t64068665313.png
2024-10-10 02:41 上傳
) ^) M4 ~$ b; F! ~$ F' s2 W
| $ n7 `6 c5 n7 r5 k6 p
% C6 W: j2 v: F* t, H2 D; F# R. u. y4 `7 P" ^0 z) d
& {2 N- q5 k4 u6 S關于我們:# {* v& r0 }) I7 }* ~3 W* d4 U
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。
$ [8 i% w% r: G ~: @3 Y. R2 S$ q1 Z p& K! V4 G
http://www.latitudeda.com/, ?3 F- c0 y/ v6 c
(點擊上方名片關注我們,發(fā)現更多精彩內容) |
|