電子產業(yè)一站式賦能平臺

PCB聯盟網

搜索
查看: 82|回復: 0
收起左側

以GPU為中心的通信

[復制鏈接]

433

主題

433

帖子

3062

積分

四級會員

Rank: 4

積分
3062
跳轉到指定樓層
樓主
發(fā)表于 2024-9-30 08:01:00 | 只看該作者 |只看大圖 回帖獎勵 |正序瀏覽 |閱讀模式
引言
0 m% n# {8 G8 b1 S+ c2 A8 R5 d高性能計算(HPC)和機器學習(ML)領域已經因GPU的廣泛應用而發(fā)生了變革。截至2024年6月,世界排名前10的超級計算機中有9個依賴GPU集群進行加速。GPU在計算方面表現出色,但GPU之間的通信可能成為重大瓶頸,特別是當每個節(jié)點和集群中的GPU數量增加時。
( |7 V# ]4 N) Q% d# w- ^. S" f; \& }" }/ w! q
傳統上,多GPU通信由CPU管理。然而,近期以GPU為中心的通信進展正在挑戰(zhàn)這一范式,減少CPU參與,賦予GPU更多通信任務自主權,并解決多GPU通信與計算之間的不匹配問題[1]。
7 K% T7 u2 \  K: R$ a2 p. d0 n3 E
& C1 W/ T$ K% Z/ P* ~6 E' M
+ f) b, j6 D% e% z/ w0 b0 ~2 G圖1:展示了不同類型的節(jié)點內通信方法的數據路徑和API調用。
3 x1 n2 D3 ?1 f2 A& Y. X# \3 s# \# g* u. s  D, I1 |2 u9 v& ?
理解GPU中心通信  {, h2 P5 z7 V* e
GPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關鍵路徑中參與的機制。這包括供應商層面的改進(賦予GPU通信自主權)和利用這些改進的用戶層面實現。3 v- Z3 M  T% r0 o3 W

# G1 I% @7 \$ b# I3 |GPU中心通信主要分為兩類:
! }( J* o9 }3 g& C
  • 節(jié)點內通信:在單個節(jié)點內進行通信,該節(jié)點包含多個連接到共享內存主機的GPU卡。
  • 節(jié)點間通信:跨多個節(jié)點進行通信,每個GPU由不同的進程控制,不同節(jié)點上的進程之間不共享內存。
    2 K' o" K9 ^3 S
    . d6 J: x* `. u0 S. D2 ~# P% i
    支持GPU中心通信的關鍵技術
    9 A, Y% O7 t9 n: f, q7 ~( t幾項技術為高效的GPU中心通信奠定了基礎:8 p  V8 R. P8 D, W
    : C6 M! _: E- e
    1. 統一虛擬尋址(UVA):在CUDA 4.0中引入,UVA允許節(jié)點內的所有GPU和CPU共享同一統一虛擬地址空間,簡化了內存管理。' d: l7 z, j) h) _

    6 q+ L- ~' G5 }! X2. GPUDirect:一系列優(yōu)化GPU與其他器件之間數據傳輸的技術:
    & F+ l( O( U% J' C! B
  • GPUDirect RDMA:支持NVIDIA GPU跨節(jié)點直接通信,無需CPU參與。
  • GPUDirect P2P:允許同一PCIe根復合體上的GPU之間直接內存訪問。
    / |) T- i- L+ k7 w4 J5 v8 `+ f+ g

    , k/ i  G6 M- F8 t% a6 C# K3. NVLink:高帶寬、低延遲的GPU到GPU互連,顯著提高了GPU之間的數據傳輸速率。
    ) N3 Q* l! k+ Y! R
    , p  ^5 ?. Y! W$ X
    / v8 T- V( y- h圖2:呈現了NVIDIA支持GPU中心通信和網絡的技術時間線。* s! E1 l" L3 c$ @2 f
    4 c# _" i/ z& S; U. P; H
    4. CUDA IPC:允許同一節(jié)點上的進程訪問其他進程的器件緩沖區(qū),無需額外復制。
    : p. A7 @7 I" h5 R4 p& r6 s
    & d# D1 V' d8 X2 _# I5. 統一內存(UVM):創(chuàng)建一個節(jié)點內所有處理器可訪問的單一地址空間,自動管理CPU和GPU內存之間的數據移動。# M: j6 ]: p# e" J
    - \# X1 C) N" o9 g3 E  b3 O) o

    , O- U; @! t  l9 h8 |2 EGPU中心通信庫
    7 B8 c2 D/ W) C; [4 j/ Z* `$ n幾個庫已經開發(fā)出來利用這些技術并提供高效GPU為中心的通信:
    3 v: q( _+ ?, i8 ^9 O: e
  • GPU感知MPI:可以區(qū)分主機和器件緩沖區(qū)的MPI實現,允許GPU之間直接通信,無需通過主機內存中轉。
  • NCCL (NVIDIA集體通信庫):提供針對深度學習工作負載優(yōu)化的拓撲感知集體原語,用于GPU間通信。
  • NVSHMEM:NVIDIA對CUDA器件OpenSHMEM規(guī)范的實現,為進程提供高效的單邊put/get API以訪問遠程數據對象。
  • ROC_SHMEM:AMD對NVSHMEM的對應實現,為AMD GPU提供類似功能。% Z/ n5 k3 O' k  B
    [/ol]- m" u% q4 [; A' h% |

    ! K  E" F4 v# N: [9 _: M. v& z
    $ Q! Q1 k/ @& y* H8 g圖3:展示了各種以GPU為中心的通信方法的節(jié)點間通信數據和控制路徑。
    & y0 N5 Z- ^7 l! c' j2 P: C9 Z/ g, b5 T8 W+ r" N
    5 n3 L* Z% H5 v1 l
    挑戰(zhàn)和未來方向! j& f$ K* j5 q5 ]+ {9 a
    以GPU為中心的通信提供了顯著優(yōu)勢,但仍存在幾個挑戰(zhàn)和未來研究方向:6 P% b4 E% P2 `! q
  • 語義不匹配:MPI和GPU編程模型之間存在根本的語義不匹配,因為MPI不了解GPU流。這可能導致強制同步和內核啟動流水線受損。
  • 資源爭用:當通信和計算都由GPU線程執(zhí)行時,它們會爭用相同的有限資源,可能導致性能問題。
  • 內存一致性:確保內核運行時GPU和NIC內存之間的一致性可能具有挑戰(zhàn)性,特別是對于持久內核。
  • 集體算法設計:多GPU系統復雜且非傳統的拓撲結構,以及GPU對之間不均勻的帶寬,使設計高效的集體通信算法變得復雜。
    # y% r8 |4 P9 w9 A; K7 G3 I6 y7 l[/ol]4 m' A- H/ z7 ?) _' K( t
    未來研究方向包括:2 t% u% L& Y$ C/ N: i/ s, ]! e
  • 無CPU網絡:將整個網絡棧移至GPU,實現完全自主的多GPU執(zhí)行。
  • 更廣泛的GPU自主性:使GPU能夠處理傳統上由CPU管理的任務,如文件系統訪問和系統調用。
  • 改進調試和分析工具:開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具,包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。
    8 u# ~; R2 I" l; m" C[/ol]
    0 q- L" T7 k8 m8 V' e2 V2 h) _) u結論
    % l8 |( {, |# g& r+ d以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉變,提供了提高性能、降低延遲和增強可擴展性的潛力。隨著GPU繼續(xù)主導HPC和ML領域,理解和利用這些通信技術對于開發(fā)人員、研究人員和系統設計師來說將變得越來越重要,以便從多GPU系統中獲得最大性能。8 W8 K' d6 F( v6 Y* p
    & ]3 K9 v/ }4 C4 w2 e
    以GPU為中心的通信領域正在迅速發(fā)展,新的硬件特性、軟件庫和編程模型不斷涌現。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統的人來說都是必要的。
    # m8 l. _- D8 h  P* J
    / B/ y5 N2 a; u8 o1 l( r展望未來,可以期待GPU中心通信的進一步優(yōu)化,這將由硬件互連的進步、更復雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計算和機器學習的邊界,使更復雜和要求更高的應用能夠在大規(guī)模GPU集群上高效運行。
    ( n8 Z0 R- ?9 Q+ H6 k- y
    2 @: C1 ?3 {6 g  j" W, _" _2 W參考文獻
    - q0 d' z. p5 _& A; |: m[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.! U7 B; J9 e/ j2 n7 S

    : ^# q+ n8 v1 C. z  @2 G# X$ e$ Y/ b: Z3 g# N7 Q
    - END -$ O+ X2 f: }" d
    # a7 @0 W+ o- ~0 A  @. C& p* v
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應用,PIC Studio都可提升您的工作效能。
    . l! _" a5 r/ p/ e點擊左下角"閱讀原文"馬上申請. M2 y" F5 ?3 ^8 P5 a
    8 ~/ x% h+ m  Y7 R" g7 u
    歡迎轉載+ m, w) R( f) B" n7 z: I5 ~! `
      Z8 a  O. J& d" `( ^
    轉載請注明出處,請勿修改內容和刪除作者信息!: e' F3 B% p7 V8 b) q
    / ^3 O) k3 S: s4 D! Q. a% U$ F
    2 A, r; D" N. f0 M; y3 e5 n

    0 Q& H0 ~0 P$ Y
    ' d0 e# N$ K9 e) {3 R1 F! Z6 Z2 @1 r$ `1 o) x
    關注我們
    : h# }" K  N7 S- I* u; y
    8 _) r* O6 J" O* x
    3 B7 `6 b. Q1 b; C& O/ H+ T

    7 z: w5 W; W- i7 M% N% [5 w

    9 F# Y4 h. g9 H9 t* j' o 5 N+ K1 l( l3 j& ~! V
    ' b: W! B, h- S, I6 `

    $ `; m, I0 n, H7 R- u0 x
                          , b0 H; z/ s; P3 m3 i$ g
    ) n" N4 J8 m: C0 q* s: b
    7 V6 C5 B' F2 A3 V; e/ U' j8 t0 R

    5 ]  {2 H# s  f0 N+ o3 z" w關于我們:1 ~0 T* u" z- F3 i( J5 ?0 A
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導體芯片設計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設計和仿真軟件,提供成熟的設計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統、超透鏡的設計與仿真。我們提供特色工藝的半導體芯片集成電路版圖、IP和PDK工程服務,廣泛服務于光通訊、光計算、光量子通信和微納光子器件領域的頭部客戶。逍遙科技與國內外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導體產業(yè)鏈發(fā)展,致力于為客戶提供前沿技術與服務。
    1 {8 _# z* H+ L* f$ R8 F8 ]/ r, H0 w4 P) A, @2 |% L
    http://www.latitudeda.com/1 F- c( [- K( |4 J; k
    (點擊上方名片關注我們,發(fā)現更多精彩內容)
  • 回復

    使用道具 舉報

    發(fā)表回復

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關閉

    站長推薦上一條 /1 下一條


    聯系客服 關注微信 下載APP 返回頂部 返回列表