電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 70|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 特斯拉的以太網(wǎng)傳輸協(xié)議(TTPoE)推進AI互連技術(shù)的創(chuàng)新

[復(fù)制鏈接]

433

主題

433

帖子

3062

積分

四級會員

Rank: 4

積分
3062
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-10-9 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言7 T6 d% J% \- z' H5 [
本文介紹特斯拉公司開發(fā)的創(chuàng)新協(xié)議:特斯拉以太網(wǎng)傳輸協(xié)議(Tesla Transport Protocol over Ethernet,簡稱TTPoE)。
/ q& K1 {( k8 U* Q9 r% ]
8 `" J$ [# v; W" \; e( ]: i在人工智能(AI)和機器學習快速發(fā)展的今天,對更快、更高效的數(shù)據(jù)處理和通信的需求不斷增長。特斯拉公司憑借其Dojo超級計算機在AI計算領(lǐng)域取得了重大突破。TTPoE協(xié)議是這個突破性系統(tǒng)的核心。
9 {* s' `9 [+ F+ B1 N
' b' H% ^; d+ f . e2 ?! _, p8 g; I& E
圖1:說明了問題陳述和特斯拉AI理想結(jié)構(gòu)的特征。& F0 \% b, y$ o
- G1 v) [+ K8 ^
TTPoE協(xié)議的誕生
( S- Q, _) J, w, V" L# K* a8 A傳統(tǒng)網(wǎng)絡(luò)協(xié)議如TCP/IP雖然穩(wěn)定且應(yīng)用廣泛,但在面對AI工作負載的極端需求時顯露出局限性。這些協(xié)議常常受到CPU軟件內(nèi)核的限制,導(dǎo)致延遲增加和吞吐量受限。此外,高性能計算中常用的無損結(jié)構(gòu)雖然可靠,但復(fù)雜性高且脆弱,一旦出現(xiàn)問題可能影響整個網(wǎng)絡(luò)。/ b* I5 b" a* w& m9 \8 L" I- Q
- n9 G. k* H' p9 R
特斯拉識別出需要一種能夠提供以下特性的網(wǎng)絡(luò)結(jié)構(gòu):
  • 最低延遲
  • 最高帶寬
  • 簡單的軟件實現(xiàn)
  • 僅限第2層操作
  • 高效的集體通信和數(shù)據(jù)攝取
  • 單一應(yīng)用環(huán)境下的低擁塞
    $ Q7 G* S+ d9 c# g$ r[/ol]
      i% h  n: u0 K/ w  GTTPoE:硬件執(zhí)行的傳輸協(xié)議. \% ~, W* o3 ~9 o& j
    TTPoE是一種完全由硬件執(zhí)行的點對點以太網(wǎng)傳輸層協(xié)議。這種方法具有多項優(yōu)勢:
  • 垂直整合:將Dojo遠程直接內(nèi)存訪問(RDMA)功能擴展到光纖結(jié)構(gòu)。
  • "有損"以太網(wǎng)網(wǎng)絡(luò):這種設(shè)計選擇有助于更容易的擴展、更高的成本效益和更好的擁塞管理。
  • 與第三方硬件兼容:TTPoE使用標準以太網(wǎng)II幀,確保廣泛的兼容性。, v% b4 }" k+ K1 L& i
    [/ol]9 i/ ^8 C0 Y( V& a

    2 A9 l: N( t- L; h8 s+ r2 K5 c 8 x+ E/ N7 x7 V1 X1 S: W
    圖2:比較了標準TCP/IP棧與使用TTPoE的Dojo棧的OSI層。
    . f$ |2 G+ c" p. B6 x$ E( n0 O( n% v6 z+ ^
    TTPoE通過在硬件中實現(xiàn)傳輸層來簡化網(wǎng)絡(luò)棧,同時在較低層保持與標準以太網(wǎng)的兼容性。這種方法允許AI計算節(jié)點之間更快、更高效的通信。# X/ Q" M" Q0 ]9 p4 P* \( q
      G  D9 i+ G+ p9 ?+ |
    TTPoE鏈路通信0 B! C% m+ l. g% D% k) w. a  W9 \; L" U2 X
    TTPoE協(xié)議使用簡化的通信過程進行設(shè)備間的數(shù)據(jù)傳輸。; d9 y7 u+ [' c2 m5 {. S. f- |
    3 e' V& s1 }" Q- [- G9 z( I
      Y2 ^7 C: T; y
    圖3:展示了TTPoE鏈路通信的例子,包括正常傳輸和涉及數(shù)據(jù)包丟失或亂序傳輸?shù)那闆r。+ d* ^, |7 |# G

    # g+ I0 M- I" r4 G8 Y! Z. `/ d在正常傳輸中,協(xié)議高效地在設(shè)備間移動數(shù)據(jù),開銷最小。當數(shù)據(jù)包丟失或亂序到達時,TTPoE使用NACK(負面確認)系統(tǒng)請求重傳,確保數(shù)據(jù)完整性的同時不影響性能。( ]1 y7 S) X9 A& F

    9 M" ?& [+ [, u, Y: _TTPoE狀態(tài)機
    + S2 V3 t( a- N. yTTPoE狀態(tài)機是傳統(tǒng)TCP狀態(tài)機的簡化版本,針對硬件執(zhí)行進行了優(yōu)化。  P  h0 z, e) H7 y; Q/ \7 b

    " ]) r6 `: z7 m/ T" `8 a & J% K+ `' K  D6 f. ~" \: \7 p
    圖4:比較了TTPoE狀態(tài)機與標準TCP狀態(tài)機,強調(diào)了為硬件執(zhí)行所做的修改。7 ]( q; a1 N3 m8 t# S7 F

    " p1 T: b8 C3 P2 A主要修改包括:
  • 更快的狀態(tài)轉(zhuǎn)換,適合微秒級協(xié)議
  • 不依賴虛擬內(nèi)存,僅使用物理內(nèi)存
  • 無需軟件參與的自動OPEN/CLOSE操作
    7 G$ m) k) C! F/ C6 Y/ f# \[/ol]- @+ i6 b+ m$ r* \& d) Z
    這些變化使TTPoE能夠以極高的效率運行,相比軟件協(xié)議大大降低了延遲并提高了吞吐量。. F2 i7 D7 a9 M( `
    ' I# c6 q" I1 Y$ _! o! ~# C
    TTPoE頭部幀
    ; O6 e: X8 P# J- d, u% O4 OTTPoE協(xié)議使用基于以太網(wǎng)II的簡單高效的頭部格式。
    + V8 c) r3 P; x- n' q1 a8 T8 Q
    4 {, [, w5 Y% j5 J/ u 4 u: k$ Q8 V+ _5 a) Z
    圖5:詳細說明了TTPoE頭部幀結(jié)構(gòu)。
    3 E& _: j& ~! \7 H. R- j  A  {* d
    : i3 B' A3 b: J4 tTTPoE頭部的顯著特點包括:
  • 使用從SOW物理地址硬件哈希派生的MAC地址
  • 每個端點支持512個并發(fā)唯一鏈接
  • 虛擬通道(VC)用于非阻塞控制、信號量、完成和數(shù)據(jù)移動
    6 }: @  S% `: R+ l; A# j  }0 v' m[/ol]
    ! O" ^* ^# g3 b3 v: }& D- y有損協(xié)議設(shè)計; O; `* R- P  ~) s
    與許多追求無損通信的高性能計算結(jié)構(gòu)不同,TTPoE采用了"有損"設(shè)計理念。
    - `5 C' {4 Y8 t; D( R' `: A) f( [/ X/ _6 u* g
    * \8 B0 K$ T# [6 D" H7 W$ f8 a: R
    圖6:解釋了TTPoE作為"有損"傳輸協(xié)議的概念。4 s' I- `! ?- I. g

    6 ~, x' E: y2 _# ^! W在這種情況下,"有損"意味著底層介質(zhì)預(yù)期偶爾會丟失數(shù)據(jù)包,并在需要時重試傳輸。這種方法類似于TCP但不同于UDP,仍然保證完整的數(shù)據(jù)包傳輸,同時允許更靈活和可擴展的網(wǎng)絡(luò)設(shè)計。: ?  N( Q/ j& Y4 W& P3 Q6 Y

    " R# @* j5 A' t" k: XTTPoE有損設(shè)計的關(guān)鍵方面包括:
  • 在擁塞或錯誤情況下默認采用數(shù)據(jù)包丟棄和重放
  • 投機傳輸受SRAM大小限制
  • 本地SRAM保留未確認數(shù)據(jù)以便潛在重放
  • SRAM約束限制重放風暴的規(guī)模
    3 b) [( j3 P. L1 X[/ol]
    9 Y. g5 }2 J3 b) y% `- z' N擁塞管理
    8 F$ V. x6 o' s$ WTTPoE采用分布式方法進行擁塞管理,摒棄了集中控制機制。
    % l7 a- s2 F& P0 Y) G, ~$ }, b! v2 q- J) ^) r

    - D% d0 Q1 O& p! g5 g2 x圖7:概述了TTPoE的擁塞管理方法。4 M$ R+ ^* z) S5 c
    - j2 A; C- g7 W. N
    TTPoE擁塞管理的主要特點包括:
  • 指數(shù)回退和速率控制由本地鏈路TX通道處理
  • 容錯流可以"刷新"網(wǎng)絡(luò)并移除壞鏈路
  • 沒有傳統(tǒng)的擁塞控制機制,如PFC、Nagle算法、QoS或令牌
    : j8 H' R' D+ Q  B  B[/ol]
    $ ^: v6 c$ N, \4 ~6 w8 O0 `) u這種分布式方法允許更可擴展和彈性的網(wǎng)絡(luò)性能,特別是在大規(guī)模AI計算環(huán)境中。' P, L9 z$ ~. D( t
    ! v3 M6 x5 R  d2 g* q. l9 ~
    TTP MAC IP塊
    : m( j. J; E7 m* V- ?( b* eTTPoE中的傳輸層硬件作為IP塊實現(xiàn),位于片上網(wǎng)絡(luò)(NoC)和標準以太網(wǎng)MAC之間。6 r9 Y( @6 t7 J/ j% |- U

    2 x- J0 R7 X; P& R% W
    : ^& B4 \# h% \5 D: l( ^圖8:顯示了TTP MAC IP塊在網(wǎng)絡(luò)棧中的位置。
    + O2 g( a$ S& I# X
    0 A& ^+ m* D9 a1 _& R& @這個IP塊執(zhí)行幾個關(guān)鍵功能:
  • 將64B/周期NoC數(shù)據(jù)包轉(zhuǎn)換并合并為最大1kB的TTP以太網(wǎng)數(shù)據(jù)包
  • 使用AXI-S或SOP/EOP格式通信
  • 可選激活標準MAC功能,如暫停數(shù)據(jù)包、計數(shù)器和LLDP
    4 E: m" ]& E9 J; S[/ol]
    7 B* }( L7 d; @& }TTP MAC IP可以在FPGA和硅實現(xiàn)中實例化,提供部署靈活性。; f7 L1 N; \( Q- O7 n
    2 P, P/ p% ]  c5 ^0 E- J( o
    實際性能
    8 s2 X! y0 \+ X0 @+ e( S特斯拉已在其Dojo超級計算機中實施TTPoE,取得了令人印象深刻的性能指標。
      A4 b8 C2 |5 d4 r: ?* Y+ l2 N, H
    0 Y0 ~- n9 n  j9 j9 R
    圖9:展示了TTPoE與其他網(wǎng)絡(luò)技術(shù)相比的性能結(jié)果。
    ' V5 ~' _& n  ~+ q
    1 W* O0 l3 o  Y/ \% X- T, Y這些在高性能網(wǎng)絡(luò)交換機上測量的結(jié)果展示了TTPoE在延遲、帶寬和全歸約性能方面的能力。該協(xié)議在保持大規(guī)模高吞吐量方面表現(xiàn)出色,這對大型AI訓(xùn)練工作負載來說尤為重要。
      a3 P8 V( p, O+ w6 r
    * q! o9 g- u: L# Y/ \2 Z結(jié)論
    * z5 T2 w) G) U% {5 `" u" P$ h特斯拉的以太網(wǎng)傳輸協(xié)議代表了AI超級計算網(wǎng)絡(luò)技術(shù)的進步。通過將傳輸層重新構(gòu)想為硬件執(zhí)行的有損協(xié)議,TTPoE在保持與標準以太網(wǎng)基礎(chǔ)設(shè)施兼容的同時實現(xiàn)了卓越的性能。隨著AI工作負載規(guī)模和復(fù)雜性的不斷增長,像TTPoE這樣的創(chuàng)新將在推動機器學習和人工智能可能性邊界方面發(fā)揮關(guān)鍵作用。
    : j( w, w. S! ^8 ]/ ^) T. Z
    1 G# ]  e1 z5 b, y- ]參考文獻+ @3 b; M7 H  v4 p7 z: g
    [1] E. Quinnell, "Tesla Transport Protocol over Ethernet (TTPoE): A new lossy, Exa-Scale fabric for the Dojo AI Supercomputer," in Hot Chips 2024, 2024.
    ) N% e5 ^( q8 p3 e! \; L* R: ~9 V+ u$ ~$ ]0 p# A
    - END -
    1 m8 y9 P) S1 K- c
    # ]2 Q" {* @# S* Z9 M軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。4 n* I. L" y3 j$ o
    點擊左下角"閱讀原文"馬上申請
    . @! h) i0 O$ {2 X- w: g/ A  _- b* F; D* A2 c( `
    歡迎轉(zhuǎn)載% T! v; @/ b5 B' Y! H& i

    9 V6 h  B7 c" H; a5 ?! `轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!% p) I+ [; @" y* w

    , E3 q/ g# @6 n$ W
    " w6 X* N' J# T! C0 n1 h
    & }" D- |" ^1 h; |5 B* C$ s8 F7 V

    6 s8 u, ?4 [* ?8 N* g8 L: x1 i6 Q" M# U: X9 D4 E7 L4 C" I3 W) }5 Z
    關(guān)注我們
    2 p! J) ]2 n5 ?- T
      ]1 V! o, x/ f* E' f- l
    # I9 B, _5 A7 C- p' V5 ^

    4 I* c- @; p2 e8 w' ]' a+ ~; N

    ; S) f, `6 s1 u; s& u5 }" X
    6 p: P! r- K; o' M; ^. N

    7 L: y4 g& T+ n
    : ^) ^( o; q7 d
                         
    ) A% y+ J" c7 x" i  o2 |4 D9 x% B6 r$ G8 {( E

    . {* b8 ?9 k' e% E+ z- w+ P/ C' l+ v. @8 D8 g; i
    關(guān)于我們:5 M) A. ]5 U2 i
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。- a! S: A, M- C, }) g4 F
    % A' x5 G7 y* w! k2 J
    http://www.latitudeda.com/
    : z5 q4 M- T' n& G# V(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 回復(fù)

    使用道具 舉報

    發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表