|
引言
& V+ s/ ~* u$ b9 N- T* b) k高性能計算(HPC)和機器學(xué)習(xí)(ML)領(lǐng)域已經(jīng)因GPU的廣泛應(yīng)用而發(fā)生了變革。截至2024年6月,世界排名前10的超級計算機中有9個依賴GPU集群進行加速。GPU在計算方面表現(xiàn)出色,但GPU之間的通信可能成為重大瓶頸,特別是當(dāng)每個節(jié)點和集群中的GPU數(shù)量增加時。
% ?! w w+ k7 x3 x; h
0 { p/ w, H9 ^! r$ ]+ Y* \傳統(tǒng)上,多GPU通信由CPU管理。然而,近期以GPU為中心的通信進展正在挑戰(zhàn)這一范式,減少CPU參與,賦予GPU更多通信任務(wù)自主權(quán),并解決多GPU通信與計算之間的不匹配問題[1]。) j; g+ h: R3 {$ k7 _
. Q9 g* D( a- W' b+ c! a- [
dln2bfcsmn164029997221.png (97.26 KB, 下載次數(shù): 12)
下載附件
保存到相冊
dln2bfcsmn164029997221.png
2024-10-1 01:07 上傳
8 I% b! H. \% y) l! `1 g
圖1:展示了不同類型的節(jié)點內(nèi)通信方法的數(shù)據(jù)路徑和API調(diào)用。
) }5 Z" n, u' U- `+ J
4 ~! v+ ~1 T1 K' P$ Z" \理解GPU中心通信
. b! }, x- A' `( s4 k1 ~GPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關(guān)鍵路徑中參與的機制。這包括供應(yīng)商層面的改進(賦予GPU通信自主權(quán))和利用這些改進的用戶層面實現(xiàn)。
. W3 v" y3 w9 F. v$ c+ o) \5 h
& U2 \, v7 I' `* R( bGPU中心通信主要分為兩類:1 b% H" g; j" l* ?
節(jié)點內(nèi)通信:在單個節(jié)點內(nèi)進行通信,該節(jié)點包含多個連接到共享內(nèi)存主機的GPU卡。節(jié)點間通信:跨多個節(jié)點進行通信,每個GPU由不同的進程控制,不同節(jié)點上的進程之間不共享內(nèi)存。4 i j, J) k9 K3 ^
6 a: a* D1 w& M支持GPU中心通信的關(guān)鍵技術(shù)8 j4 p# Y9 R, k4 u
幾項技術(shù)為高效的GPU中心通信奠定了基礎(chǔ):: O! y/ h: e# g* F+ W
* U7 J& y2 d3 D
1. 統(tǒng)一虛擬尋址(UVA):在CUDA 4.0中引入,UVA允許節(jié)點內(nèi)的所有GPU和CPU共享同一統(tǒng)一虛擬地址空間,簡化了內(nèi)存管理。. d" Q0 k3 r% v9 C& M3 e
8 Z: c$ N# Q& l0 |1 a; W+ i2. GPUDirect:一系列優(yōu)化GPU與其他器件之間數(shù)據(jù)傳輸?shù)募夹g(shù):
! T# ~! N: \, f* ?# m# T& yGPUDirect RDMA:支持NVIDIA GPU跨節(jié)點直接通信,無需CPU參與。GPUDirect P2P:允許同一PCIe根復(fù)合體上的GPU之間直接內(nèi)存訪問。& X" q, L7 @' T
& M3 Z; f/ \4 y, s& z9 `3. NVLink:高帶寬、低延遲的GPU到GPU互連,顯著提高了GPU之間的數(shù)據(jù)傳輸速率。5 X2 U& r/ P% o4 r: U& ^
( C% R: n5 H$ R1 N! j
wlnjf4vbo4i64029997321.png (147.58 KB, 下載次數(shù): 14)
下載附件
保存到相冊
wlnjf4vbo4i64029997321.png
2024-10-1 01:07 上傳
" x* B! H% z3 x4 I) j圖2:呈現(xiàn)了NVIDIA支持GPU中心通信和網(wǎng)絡(luò)的技術(shù)時間線。* D1 P. O# P+ ~7 `8 m5 o9 V. h6 k
. m9 e+ u3 `, P/ z& P! Z
4. CUDA IPC:允許同一節(jié)點上的進程訪問其他進程的器件緩沖區(qū),無需額外復(fù)制。
; m5 P' Z7 C" Q6 {. Q/ n1 I( `; s* K) C
5. 統(tǒng)一內(nèi)存(UVM):創(chuàng)建一個節(jié)點內(nèi)所有處理器可訪問的單一地址空間,自動管理CPU和GPU內(nèi)存之間的數(shù)據(jù)移動。
`: `' T7 \# m: d5 E: _3 \' J
5 u" W2 C( L/ C1 B' O* A6 l; X) q' }4 s- K
GPU中心通信庫
- [* K, R6 X/ }8 a幾個庫已經(jīng)開發(fā)出來利用這些技術(shù)并提供高效GPU為中心的通信:0 F% i5 F# t4 `
GPU感知MPI:可以區(qū)分主機和器件緩沖區(qū)的MPI實現(xiàn),允許GPU之間直接通信,無需通過主機內(nèi)存中轉(zhuǎn)。NCCL (NVIDIA集體通信庫):提供針對深度學(xué)習(xí)工作負載優(yōu)化的拓撲感知集體原語,用于GPU間通信。NVSHMEM:NVIDIA對CUDA器件OpenSHMEM規(guī)范的實現(xiàn),為進程提供高效的單邊put/get API以訪問遠程數(shù)據(jù)對象。ROC_SHMEM:AMD對NVSHMEM的對應(yīng)實現(xiàn),為AMD GPU提供類似功能。/ _9 q/ ]% S: h/ ?- I
[/ol]" L' L7 ~2 A9 Q" K7 H
% h. \2 z5 h8 x0 [2 \6 M
qgpmxzuax3564029997421.png (123.58 KB, 下載次數(shù): 15)
下載附件
保存到相冊
qgpmxzuax3564029997421.png
2024-10-1 01:07 上傳
$ l# Z' ]. h2 N& X; V. }& o4 F M2 m
圖3:展示了各種以GPU為中心的通信方法的節(jié)點間通信數(shù)據(jù)和控制路徑。
% x; N1 }4 ^2 u, F* S j1 m" D+ r* A# z! \; Y) _5 M) E
' p9 k5 U0 d+ k" {) f
挑戰(zhàn)和未來方向
, x: y( L2 _8 B2 ^2 {, c以GPU為中心的通信提供了顯著優(yōu)勢,但仍存在幾個挑戰(zhàn)和未來研究方向:
) L: b3 @) D- _( [ U X& w語義不匹配:MPI和GPU編程模型之間存在根本的語義不匹配,因為MPI不了解GPU流。這可能導(dǎo)致強制同步和內(nèi)核啟動流水線受損。資源爭用:當(dāng)通信和計算都由GPU線程執(zhí)行時,它們會爭用相同的有限資源,可能導(dǎo)致性能問題。內(nèi)存一致性:確保內(nèi)核運行時GPU和NIC內(nèi)存之間的一致性可能具有挑戰(zhàn)性,特別是對于持久內(nèi)核。集體算法設(shè)計:多GPU系統(tǒng)復(fù)雜且非傳統(tǒng)的拓撲結(jié)構(gòu),以及GPU對之間不均勻的帶寬,使設(shè)計高效的集體通信算法變得復(fù)雜。
- v: J& _# N# p1 |[/ol]: L- m. G) [! C) W
未來研究方向包括:( M) @& |8 o) q; i8 h% _1 T
無CPU網(wǎng)絡(luò):將整個網(wǎng)絡(luò)棧移至GPU,實現(xiàn)完全自主的多GPU執(zhí)行。更廣泛的GPU自主性:使GPU能夠處理傳統(tǒng)上由CPU管理的任務(wù),如文件系統(tǒng)訪問和系統(tǒng)調(diào)用。改進調(diào)試和分析工具:開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具,包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。
& ?1 R! f2 f# _2 r: U+ _- z. l: w: X[/ol]
9 a3 o$ t F; L) C$ t7 R/ g5 g結(jié)論
' c! U- { N2 I- B$ ~以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉(zhuǎn)變,提供了提高性能、降低延遲和增強可擴展性的潛力。隨著GPU繼續(xù)主導(dǎo)HPC和ML領(lǐng)域,理解和利用這些通信技術(shù)對于開發(fā)人員、研究人員和系統(tǒng)設(shè)計師來說將變得越來越重要,以便從多GPU系統(tǒng)中獲得最大性能。
- Q8 n. v8 Y o1 b3 o: F
$ c4 J# [2 ^& F* r以GPU為中心的通信領(lǐng)域正在迅速發(fā)展,新的硬件特性、軟件庫和編程模型不斷涌現(xiàn)。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統(tǒng)的人來說都是必要的。
+ U' l! ^2 r; T) C+ K; O; \: C! k8 K
展望未來,可以期待GPU中心通信的進一步優(yōu)化,這將由硬件互連的進步、更復(fù)雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計算和機器學(xué)習(xí)的邊界,使更復(fù)雜和要求更高的應(yīng)用能夠在大規(guī)模GPU集群上高效運行。+ u! p5 ]7 a0 f! V7 }
+ f- r+ W( \% K" C& |0 J參考文獻- a E1 i0 _( b# {! e8 N9 P
[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.
4 E) j+ Y! _' o5 Y5 w: X0 W" F7 v/ p, c6 G* `7 ]3 E7 k
1 K3 S& k, T$ P2 _7 r: e/ v) C
- END -( J" d7 C) O' Q1 |
) |- V( H, u! _" ?6 w7 T( N. a軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗免費版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。) O5 U9 W/ }! f$ v+ G. y) N- x
點擊左下角"閱讀原文"馬上申請( G( d$ E, |7 p+ Q4 T v1 r
# N. V7 P$ K; u/ b) F1 s- M1 c- u+ ^歡迎轉(zhuǎn)載
+ H' b& u, v( Z: I: {
( k8 _, v! t, X& y; i轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
+ k! `% @3 p5 Z% R$ P, ?$ Q$ f4 T8 I8 i( |4 X; H
' R+ Z; F1 \/ M$ J8 y' U9 l0 [+ i
: }' D+ A4 G- j9 W
0au4eoo2ehh64029997521.gif (16.04 KB, 下載次數(shù): 13)
下載附件
保存到相冊
0au4eoo2ehh64029997521.gif
2024-10-1 01:07 上傳
, q. D, H4 [$ c/ c2 w9 f( i% }" f- D$ J8 k
關(guān)注我們. Y% K b, F# D" h( k
+ B, D/ g, x0 o/ ?
. N$ T8 \4 [' J o# d; S/ f8 U
5ej2rrfoyfj64029997621.png (31.33 KB, 下載次數(shù): 13)
下載附件
保存到相冊
5ej2rrfoyfj64029997621.png
2024-10-1 01:07 上傳
0 I1 C6 m( h- E. `- n
| / R' h* u0 r7 ~) r
m1vkzzacjn164029997721.png (82.79 KB, 下載次數(shù): 13)
下載附件
保存到相冊
m1vkzzacjn164029997721.png
2024-10-1 01:07 上傳
. l% Z# E% g/ p8 E" J4 G4 z+ H* `5 [ |
# w4 X6 }: k; z" N
rx51yznhvkh64029997821.png (21.52 KB, 下載次數(shù): 13)
下載附件
保存到相冊
rx51yznhvkh64029997821.png
2024-10-1 01:07 上傳
) ^+ ^0 U% Y5 c |
, h5 l2 o3 O, m1 k' W$ E$ u j# I6 D2 ?. k, L* i7 Z- \
( N3 G% F3 l( Z. K; U( H( t( o1 K( v, K4 h j8 Z v. g
關(guān)于我們:! L, K4 f( x, | \) z+ z6 G
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。/ G ]# B2 N# G5 C3 q
; `8 A7 k% P* J$ H; K
http://www.latitudeda.com/
. a4 q/ s; C# `: k* m$ n1 ~8 g(點擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|