電子產業(yè)一站式賦能平臺

PCB聯盟網

搜索
查看: 71|回復: 0
收起左側

Hot Chips 2024 | 特斯拉的以太網傳輸協議(TTPoE)推進AI互連技術的創(chuàng)新

[復制鏈接]

433

主題

433

帖子

3062

積分

四級會員

Rank: 4

積分
3062
跳轉到指定樓層
樓主
發(fā)表于 2024-10-9 08:00:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
引言+ m2 \/ I6 `" ?- B5 _7 s6 G
本文介紹特斯拉公司開發(fā)的創(chuàng)新協議:特斯拉以太網傳輸協議(Tesla Transport Protocol over Ethernet,簡稱TTPoE)。
7 [! ?* |( H! z/ {( T
* _8 o& h' K, L2 {; q+ o在人工智能(AI)和機器學習快速發(fā)展的今天,對更快、更高效的數據處理和通信的需求不斷增長。特斯拉公司憑借其Dojo超級計算機在AI計算領域取得了重大突破。TTPoE協議是這個突破性系統(tǒng)的核心。
. I! r$ Y# n" x6 g9 M
; U5 H4 j: g6 L  J ' {5 V1 {! O6 A4 ^
圖1:說明了問題陳述和特斯拉AI理想結構的特征。
$ y, b& U. t4 o) ?9 A! S+ C9 G; L8 d# P8 C
TTPoE協議的誕生, d  w4 x* _+ M  P
傳統(tǒng)網絡協議如TCP/IP雖然穩(wěn)定且應用廣泛,但在面對AI工作負載的極端需求時顯露出局限性。這些協議常常受到CPU軟件內核的限制,導致延遲增加和吞吐量受限。此外,高性能計算中常用的無損結構雖然可靠,但復雜性高且脆弱,一旦出現問題可能影響整個網絡。" l. z/ s2 x: C% p" z4 G- ~

* X7 x1 R: Y  a特斯拉識別出需要一種能夠提供以下特性的網絡結構:
  • 最低延遲
  • 最高帶寬
  • 簡單的軟件實現
  • 僅限第2層操作
  • 高效的集體通信和數據攝取
  • 單一應用環(huán)境下的低擁塞. ^9 Q; {/ t$ _3 O- ^  \
    [/ol]
    + R5 H1 ?- d& K1 u  l0 J4 _; OTTPoE:硬件執(zhí)行的傳輸協議/ ]: Q0 X9 p% y" h- A8 e! {& W; T
    TTPoE是一種完全由硬件執(zhí)行的點對點以太網傳輸層協議。這種方法具有多項優(yōu)勢:
  • 垂直整合:將Dojo遠程直接內存訪問(RDMA)功能擴展到光纖結構。
  • "有損"以太網網絡:這種設計選擇有助于更容易的擴展、更高的成本效益和更好的擁塞管理。
  • 與第三方硬件兼容:TTPoE使用標準以太網II幀,確保廣泛的兼容性。/ `% c4 |9 S, O1 W( R+ v
    [/ol]
      T) C6 ~  `  d9 g$ \* X4 h) P% X1 t/ G7 X! N& Z5 h
    * U7 s8 k, z% d2 D
    圖2:比較了標準TCP/IP棧與使用TTPoE的Dojo棧的OSI層。
    + f: Q# M% x9 q: e- x, x0 ]' V0 E* F5 l' [
    TTPoE通過在硬件中實現傳輸層來簡化網絡棧,同時在較低層保持與標準以太網的兼容性。這種方法允許AI計算節(jié)點之間更快、更高效的通信。
    3 i) e9 l. U, j3 R$ R5 N% ?
      K5 Z/ s% b5 n" S  G+ |TTPoE鏈路通信( z2 `/ `$ ]+ D8 J4 ?
    TTPoE協議使用簡化的通信過程進行設備間的數據傳輸。" p+ u/ l2 V4 A  g& r& Q  I8 ^( k! U

    * M7 I) j, P6 O
    % H; B8 \* G( {圖3:展示了TTPoE鏈路通信的例子,包括正常傳輸和涉及數據包丟失或亂序傳輸的情況。
    9 E! u0 b/ ?# z5 W* C8 ?
    3 ~5 x8 u4 z8 Y* [' G8 y在正常傳輸中,協議高效地在設備間移動數據,開銷最小。當數據包丟失或亂序到達時,TTPoE使用NACK(負面確認)系統(tǒng)請求重傳,確保數據完整性的同時不影響性能。
    ! O4 G6 L8 u2 v5 D+ A- z
    ! L4 q6 |4 m8 w: N: ^' aTTPoE狀態(tài)機/ o) b1 S9 E! W. c  O
    TTPoE狀態(tài)機是傳統(tǒng)TCP狀態(tài)機的簡化版本,針對硬件執(zhí)行進行了優(yōu)化。
    , W2 j1 `2 d4 L* J$ s2 b6 t% m$ u" A% i% [. U; N

    , ?* E$ n7 E4 R; g; b9 V. J圖4:比較了TTPoE狀態(tài)機與標準TCP狀態(tài)機,強調了為硬件執(zhí)行所做的修改。# b/ k; w4 D4 q, b
    * a; Q& i7 Z1 v* |; Y' l) ]
    主要修改包括:
  • 更快的狀態(tài)轉換,適合微秒級協議
  • 不依賴虛擬內存,僅使用物理內存
  • 無需軟件參與的自動OPEN/CLOSE操作+ q6 _, P3 g, P, W
    [/ol]( D% ]5 q, l( l8 Y( I* z
    這些變化使TTPoE能夠以極高的效率運行,相比軟件協議大大降低了延遲并提高了吞吐量。: v& E7 ]# l# x+ z' h$ u1 v5 p9 F

    / Q$ u! d4 |  ?8 a/ G6 g  gTTPoE頭部幀: ]1 f* F" u. y1 K
    TTPoE協議使用基于以太網II的簡單高效的頭部格式。
    & p. v' D0 d( c0 |  y# e+ i6 O, T# ?  B; Q

    : O$ [" S3 w( e  X7 e$ w圖5:詳細說明了TTPoE頭部幀結構。
    ' t4 }3 k- B6 s8 d2 m0 a. d+ l) S# @
    TTPoE頭部的顯著特點包括:
  • 使用從SOW物理地址硬件哈希派生的MAC地址
  • 每個端點支持512個并發(fā)唯一鏈接
  • 虛擬通道(VC)用于非阻塞控制、信號量、完成和數據移動0 K& L4 T! l: _* h- G6 Z
    [/ol]
    , ~4 g' ?0 ~! ?8 c) ]  _$ C有損協議設計
    + J7 |2 K1 _: O與許多追求無損通信的高性能計算結構不同,TTPoE采用了"有損"設計理念。
    * o+ q& ~1 S* H6 \) P
    % n* R9 W4 j* ~/ {& Z9 B; n1 I: Z1 c
    1 m  H0 n  M& m& `圖6:解釋了TTPoE作為"有損"傳輸協議的概念。' s4 Q: R9 K9 o6 E

    0 q. t2 c. Y% R, k, ~- Z. N在這種情況下,"有損"意味著底層介質預期偶爾會丟失數據包,并在需要時重試傳輸。這種方法類似于TCP但不同于UDP,仍然保證完整的數據包傳輸,同時允許更靈活和可擴展的網絡設計。% E/ D3 d% J2 L3 S$ f
    ) K& B9 c* ]$ Z' Z+ ]
    TTPoE有損設計的關鍵方面包括:
  • 在擁塞或錯誤情況下默認采用數據包丟棄和重放
  • 投機傳輸受SRAM大小限制
  • 本地SRAM保留未確認數據以便潛在重放
  • SRAM約束限制重放風暴的規(guī)模
      i0 P4 S3 |' f! H9 m! D& R[/ol]2 A  E9 S3 B% ]9 X1 A4 q
    擁塞管理; B$ Y: N$ `- k4 x
    TTPoE采用分布式方法進行擁塞管理,摒棄了集中控制機制。! q) B' y4 @, {

    8 Z! |0 k) ^8 _; y+ q+ c7 t; S# ? ) p$ _: C& D5 s
    圖7:概述了TTPoE的擁塞管理方法。& s  H  W. t: O; C( R3 H
    . A% `2 {* I: G1 E7 u
    TTPoE擁塞管理的主要特點包括:
  • 指數回退和速率控制由本地鏈路TX通道處理
  • 容錯流可以"刷新"網絡并移除壞鏈路
  • 沒有傳統(tǒng)的擁塞控制機制,如PFC、Nagle算法、QoS或令牌7 H. t. j" k0 U& [- c
    [/ol]; y9 N: a# `: d* m& g
    這種分布式方法允許更可擴展和彈性的網絡性能,特別是在大規(guī)模AI計算環(huán)境中。; d/ `+ D$ E$ e  ]! p) S
    2 S9 e5 P- O6 [: V
    TTP MAC IP塊
    ( {/ `2 A- S; D( C0 iTTPoE中的傳輸層硬件作為IP塊實現,位于片上網絡(NoC)和標準以太網MAC之間。7 u/ F) ]5 S! M0 s8 o6 z
    3 s. A; u& q) D) t0 q
    % ^& ?' k1 \3 o, p2 @% Z( @
    圖8:顯示了TTP MAC IP塊在網絡棧中的位置。
    - q* h% t$ }' ?' X! {+ ]' ]; Q
    * A8 w5 i, [+ e! H這個IP塊執(zhí)行幾個關鍵功能:
  • 將64B/周期NoC數據包轉換并合并為最大1kB的TTP以太網數據包
  • 使用AXI-S或SOP/EOP格式通信
  • 可選激活標準MAC功能,如暫停數據包、計數器和LLDP6 w$ [3 T3 I% `0 F9 [. l3 K
    [/ol]: J& @7 T. x' ?' E
    TTP MAC IP可以在FPGA和硅實現中實例化,提供部署靈活性。9 ]* ]: w3 A$ J# z  x8 T  l7 Q

    ) N  Z# S) o5 J1 }9 C* a( i# P實際性能* v- l0 l- [5 x0 W) U5 j' d  d
    特斯拉已在其Dojo超級計算機中實施TTPoE,取得了令人印象深刻的性能指標。0 `/ ^* P+ T, K3 v1 @- s
    ) \2 Y; a& k4 k

    ' |" V/ B; G5 a; p圖9:展示了TTPoE與其他網絡技術相比的性能結果。
    ( }, H1 s- p# q: M# @
    & u6 H- d9 L& f4 O7 \這些在高性能網絡交換機上測量的結果展示了TTPoE在延遲、帶寬和全歸約性能方面的能力。該協議在保持大規(guī)模高吞吐量方面表現出色,這對大型AI訓練工作負載來說尤為重要。; U9 c9 ^! S4 @: j& }
    " B9 v2 T. N2 p* w5 s. [. p. M
    結論
    2 r! j2 n9 B; t, I9 a3 ^特斯拉的以太網傳輸協議代表了AI超級計算網絡技術的進步。通過將傳輸層重新構想為硬件執(zhí)行的有損協議,TTPoE在保持與標準以太網基礎設施兼容的同時實現了卓越的性能。隨著AI工作負載規(guī)模和復雜性的不斷增長,像TTPoE這樣的創(chuàng)新將在推動機器學習和人工智能可能性邊界方面發(fā)揮關鍵作用。3 {6 |0 ~6 v( f

    : j7 Z  N! k" [6 P6 B6 r參考文獻+ @$ f/ H8 B% S& L( S8 l2 w$ V. T
    [1] E. Quinnell, "Tesla Transport Protocol over Ethernet (TTPoE): A new lossy, Exa-Scale fabric for the Dojo AI Supercomputer," in Hot Chips 2024, 2024.
    7 k9 T2 e0 F& F8 c1 `- H6 Q4 q0 b) R  f+ [$ C3 _' Z
    - END -
    3 I7 J( c1 }; ?% T8 x
    4 l3 w$ V( s& z4 V) P* B6 _軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。; U+ V! _- p, A/ [$ a
    點擊左下角"閱讀原文"馬上申請8 P+ w* y1 ?( G! y" D% `# s* k9 t; w1 Z

    1 X$ E. d3 {: |7 ^* d歡迎轉載
    ' V3 h4 M5 ^4 S  q, J; @
    0 ]2 w( I; `, h; m' a5 x  _1 C, n- j& G/ h轉載請注明出處,請勿修改內容和刪除作者信息!7 x' l  Y: Y% [' Z9 \5 D! h

    8 G. O/ X1 [1 I
    & c! Z$ m( v! C

    : Z5 U9 K" E' u  H3 b' L; N + G8 D% Z. y+ ~0 y3 U# a

    % M8 ~& p- H8 @4 r& }% x  D5 ^6 R關注我們
    5 K0 v: [# K, r6 ?& B& m5 {# m# ?: e3 P6 p: m

    & r9 K" ]( R: K- B9 W. m . O0 ^+ {  s/ K. Q$ {* K; H

    6 r' q: w+ H3 o: _2 V6 n % w" h! S8 ^+ P6 i- Q4 `

    $ z% e) m$ ~' \& o5 k9 B ) ^) M4 ~$ b; F! ~$ F' s2 W
                          $ n7 `6 c5 n7 r5 k6 p

    % C6 W: j2 v: F* t, H2 D
    ; F# R. u. y4 `7 P" ^0 z) d

    & {2 N- q5 k4 u6 S關于我們:# {* v& r0 }) I7 }* ~3 W* d4 U
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。
    $ [8 i% w% r: G  ~: @3 Y. R2 S$ q1 Z  p& K! V4 G
    http://www.latitudeda.com/, ?3 F- c0 y/ v6 c
    (點擊上方名片關注我們,發(fā)現更多精彩內容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關閉

    站長推薦上一條 /1 下一條


    聯系客服 關注微信 下載APP 返回頂部 返回列表