|
引言
( ?3 h. ], R Y' O/ E高性能計算(HPC)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域已經(jīng)因GPU的廣泛應(yīng)用而發(fā)生了變革。截至2024年6月,世界排名前10的超級計算機(jī)中有9個依賴GPU集群進(jìn)行加速。GPU在計算方面表現(xiàn)出色,但GPU之間的通信可能成為重大瓶頸,特別是當(dāng)每個節(jié)點(diǎn)和集群中的GPU數(shù)量增加時。" g3 B% k- y. B" Q2 r
9 |8 K5 N: L3 m* f. x
傳統(tǒng)上,多GPU通信由CPU管理。然而,近期以GPU為中心的通信進(jìn)展正在挑戰(zhàn)這一范式,減少CPU參與,賦予GPU更多通信任務(wù)自主權(quán),并解決多GPU通信與計算之間的不匹配問題[1]。( G* D1 E; ^, C$ V
z5 c3 B7 N; [2 r0 b* M! l
dln2bfcsmn164029997221.png (97.26 KB, 下載次數(shù): 13)
下載附件
保存到相冊
dln2bfcsmn164029997221.png
2024-10-1 01:07 上傳
2 F1 _! Q `' v; k. `+ J
圖1:展示了不同類型的節(jié)點(diǎn)內(nèi)通信方法的數(shù)據(jù)路徑和API調(diào)用。
$ Q, u! U; D3 J8 s# Y# F- R# ]6 c R6 n/ T( [
理解GPU中心通信% a) |" L6 a+ a* Y, g$ A U7 _8 r
GPU中心通信可以廣泛定義為減少CPU在多GPU執(zhí)行關(guān)鍵路徑中參與的機(jī)制。這包括供應(yīng)商層面的改進(jìn)(賦予GPU通信自主權(quán))和利用這些改進(jìn)的用戶層面實(shí)現(xiàn)。. Y# V# U" X3 }/ R5 K! `' m
$ M8 t) [ l1 K6 r6 L, v
GPU中心通信主要分為兩類:0 T& I" y" h4 I# f4 w/ w
節(jié)點(diǎn)內(nèi)通信:在單個節(jié)點(diǎn)內(nèi)進(jìn)行通信,該節(jié)點(diǎn)包含多個連接到共享內(nèi)存主機(jī)的GPU卡。節(jié)點(diǎn)間通信:跨多個節(jié)點(diǎn)進(jìn)行通信,每個GPU由不同的進(jìn)程控制,不同節(jié)點(diǎn)上的進(jìn)程之間不共享內(nèi)存。 ?7 A: C4 a% t9 O
?+ u! K% f: ~# W; Y. ]
支持GPU中心通信的關(guān)鍵技術(shù)
1 d) c4 y5 v0 B w9 W1 y! X4 e幾項技術(shù)為高效的GPU中心通信奠定了基礎(chǔ):
$ i. C0 A/ i( G' t) J, J7 `5 f9 C+ R
- V+ D0 c. a) k1 Z1. 統(tǒng)一虛擬尋址(UVA):在CUDA 4.0中引入,UVA允許節(jié)點(diǎn)內(nèi)的所有GPU和CPU共享同一統(tǒng)一虛擬地址空間,簡化了內(nèi)存管理。$ X r- `& ^( b+ p& k K
9 [' ~7 d1 k/ b; u$ g! z2. GPUDirect:一系列優(yōu)化GPU與其他器件之間數(shù)據(jù)傳輸?shù)募夹g(shù):5 B$ q g B; Y ^1 T3 { e
GPUDirect RDMA:支持NVIDIA GPU跨節(jié)點(diǎn)直接通信,無需CPU參與。GPUDirect P2P:允許同一PCIe根復(fù)合體上的GPU之間直接內(nèi)存訪問。
Y2 `' O5 ~9 I) ~8 J' Q8 j* a: p9 r% C
3. NVLink:高帶寬、低延遲的GPU到GPU互連,顯著提高了GPU之間的數(shù)據(jù)傳輸速率。
9 ?1 _; _! E& P0 R9 A* i% x" Q. o5 W% O' |) k% D
wlnjf4vbo4i64029997321.png (147.58 KB, 下載次數(shù): 14)
下載附件
保存到相冊
wlnjf4vbo4i64029997321.png
2024-10-1 01:07 上傳
( q F% X$ S' m! k
圖2:呈現(xiàn)了NVIDIA支持GPU中心通信和網(wǎng)絡(luò)的技術(shù)時間線。& K: C3 b9 C8 B) u; t' x
9 q" s( `) u+ m" n' @9 Y4. CUDA IPC:允許同一節(jié)點(diǎn)上的進(jìn)程訪問其他進(jìn)程的器件緩沖區(qū),無需額外復(fù)制。
) k) p8 j; N* g$ y; J# E. D8 a: D6 b0 T9 q1 p6 j
5. 統(tǒng)一內(nèi)存(UVM):創(chuàng)建一個節(jié)點(diǎn)內(nèi)所有處理器可訪問的單一地址空間,自動管理CPU和GPU內(nèi)存之間的數(shù)據(jù)移動。
9 p; L- x* q% i0 ^0 C! b
: B* `/ h" t8 N8 r: b: {7 h; j( a3 d* C$ N3 x; i
GPU中心通信庫% \) B$ U5 ~5 }( T7 x& k: `
幾個庫已經(jīng)開發(fā)出來利用這些技術(shù)并提供高效GPU為中心的通信:7 r( ~5 D3 h% K& C l9 G
GPU感知MPI:可以區(qū)分主機(jī)和器件緩沖區(qū)的MPI實(shí)現(xiàn),允許GPU之間直接通信,無需通過主機(jī)內(nèi)存中轉(zhuǎn)。NCCL (NVIDIA集體通信庫):提供針對深度學(xué)習(xí)工作負(fù)載優(yōu)化的拓?fù)涓兄w原語,用于GPU間通信。NVSHMEM:NVIDIA對CUDA器件OpenSHMEM規(guī)范的實(shí)現(xiàn),為進(jìn)程提供高效的單邊put/get API以訪問遠(yuǎn)程數(shù)據(jù)對象。ROC_SHMEM:AMD對NVSHMEM的對應(yīng)實(shí)現(xiàn),為AMD GPU提供類似功能。
" _. p- y% j; V# ^. u[/ol]
/ U! h. C( v! _; ?: u
0 d1 p5 h7 p; u. K' W0 k$ r0 g
qgpmxzuax3564029997421.png (123.58 KB, 下載次數(shù): 15)
下載附件
保存到相冊
qgpmxzuax3564029997421.png
2024-10-1 01:07 上傳
) ^* k5 [% x) U3 x2 [
圖3:展示了各種以GPU為中心的通信方法的節(jié)點(diǎn)間通信數(shù)據(jù)和控制路徑。
( s# s% I/ z4 m$ Y4 N/ B+ ]: m/ `; |) {* l0 ?% ]
$ [6 F; q7 E8 w: K# [( M1 Y挑戰(zhàn)和未來方向
& s. h/ X! s, V以GPU為中心的通信提供了顯著優(yōu)勢,但仍存在幾個挑戰(zhàn)和未來研究方向:5 U" ^5 r$ A" q# F1 m8 H" Q+ \. U
語義不匹配:MPI和GPU編程模型之間存在根本的語義不匹配,因?yàn)镸PI不了解GPU流。這可能導(dǎo)致強(qiáng)制同步和內(nèi)核啟動流水線受損。資源爭用:當(dāng)通信和計算都由GPU線程執(zhí)行時,它們會爭用相同的有限資源,可能導(dǎo)致性能問題。內(nèi)存一致性:確保內(nèi)核運(yùn)行時GPU和NIC內(nèi)存之間的一致性可能具有挑戰(zhàn)性,特別是對于持久內(nèi)核。集體算法設(shè)計:多GPU系統(tǒng)復(fù)雜且非傳統(tǒng)的拓?fù)浣Y(jié)構(gòu),以及GPU對之間不均勻的帶寬,使設(shè)計高效的集體通信算法變得復(fù)雜。
2 v% [" g( s U5 R[/ol]
. p) Q# E) q9 i/ \& j) \9 e; \未來研究方向包括:
4 x- s& n0 ]3 G8 V無CPU網(wǎng)絡(luò):將整個網(wǎng)絡(luò)棧移至GPU,實(shí)現(xiàn)完全自主的多GPU執(zhí)行。更廣泛的GPU自主性:使GPU能夠處理傳統(tǒng)上由CPU管理的任務(wù),如文件系統(tǒng)訪問和系統(tǒng)調(diào)用。改進(jìn)調(diào)試和分析工具:開發(fā)能夠監(jiān)控和可視化GPU中心通信的工具,包括器件原生傳輸和多GPU環(huán)境中的競爭檢測。
; u* j1 o; ]: }" E; X+ R( |; N+ ?[/ol], y1 h, Z5 a1 ~: B5 k, r
結(jié)論
7 _% c! [' A6 r0 c+ Y" K+ {以GPU為中心的通信代表了多GPU執(zhí)行范式的重大轉(zhuǎn)變,提供了提高性能、降低延遲和增強(qiáng)可擴(kuò)展性的潛力。隨著GPU繼續(xù)主導(dǎo)HPC和ML領(lǐng)域,理解和利用這些通信技術(shù)對于開發(fā)人員、研究人員和系統(tǒng)設(shè)計師來說將變得越來越重要,以便從多GPU系統(tǒng)中獲得最大性能。
2 U! P" Y) g/ n; w5 e
/ s3 ~! p \ ~4 Z1 w2 D8 p: |以GPU為中心的通信領(lǐng)域正在迅速發(fā)展,新的硬件特性、軟件庫和編程模型不斷涌現(xiàn)。了解這些發(fā)展及其影響對于任何使用大規(guī)模GPU加速系統(tǒng)的人來說都是必要的。
9 @5 w4 S' O) ?- O% k5 L9 F a4 W0 o( [. P4 W: o1 C9 z
展望未來,可以期待GPU中心通信的進(jìn)一步優(yōu)化,這將由硬件互連的進(jìn)步、更復(fù)雜的軟件庫和創(chuàng)新的編程模型推動。這些發(fā)展將繼續(xù)推動高性能計算和機(jī)器學(xué)習(xí)的邊界,使更復(fù)雜和要求更高的應(yīng)用能夠在大規(guī)模GPU集群上高效運(yùn)行。# C5 ]) R/ x/ u: @7 D' D. h, D8 ^
/ x9 z% |8 t& p
參考文獻(xiàn)
7 u1 g" {8 q7 Y$ [8 w* N3 B[1] D. Unat et al., "The Landscape of GPU-Centric Communication," ACM Comput. Surv., vol. 37, no. 4, Article 111, Aug. 2024.
: k4 y6 [7 f$ [9 q0 G) \3 k6 f+ b6 W# E
: L) x @& m* J
- END -
& w j7 s3 b" a; L& B. g
, a4 y$ _4 a9 O4 p1 i軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請體驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
$ B8 A* k a2 I9 {( |8 z點(diǎn)擊左下角"閱讀原文"馬上申請
' e% a; A3 e7 j* Q2 W7 g: y+ g7 ~# A8 @% p& [
歡迎轉(zhuǎn)載2 F/ r& a/ \3 }6 i. O
5 Z+ ]% v! D; t6 \8 X6 x( a轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
' Q; w" I% [) [/ a# n" o6 {% n; D0 z
. j2 S7 X+ m6 F/ U
0 T$ |& C5 ] k$ ]; Q- w2 y
0au4eoo2ehh64029997521.gif (16.04 KB, 下載次數(shù): 14)
下載附件
保存到相冊
0au4eoo2ehh64029997521.gif
2024-10-1 01:07 上傳
/ `, g. b p9 c- b4 ^" ^! J. |( c- K( K/ m$ s1 v
關(guān)注我們
: }! C+ j; }3 V4 a+ y3 x2 F* z5 W& M# }9 H3 K
) S: F. W7 i0 ^/ I3 b6 u9 \
5ej2rrfoyfj64029997621.png (31.33 KB, 下載次數(shù): 13)
下載附件
保存到相冊
5ej2rrfoyfj64029997621.png
2024-10-1 01:07 上傳
7 m. n& P6 t: ~) P7 M$ |2 {
|
; W( s- L' q! h- u' Z0 J
m1vkzzacjn164029997721.png (82.79 KB, 下載次數(shù): 14)
下載附件
保存到相冊
m1vkzzacjn164029997721.png
2024-10-1 01:07 上傳
$ C# L: q( u. d: S; Y3 O1 {
|
, Y0 y- U' E5 t8 [& M
rx51yznhvkh64029997821.png (21.52 KB, 下載次數(shù): 13)
下載附件
保存到相冊
rx51yznhvkh64029997821.png
2024-10-1 01:07 上傳
2 u5 i5 X1 _( J+ A$ |" ^9 W% Y7 x
| 5 }) W: [* _6 h }7 O" c
, Y6 H$ h' F5 s+ p1 t j: w. g2 Z) Z
% w# ~' ~; C% y& o' l# j3 j0 u
4 e- b1 d1 Z2 |
關(guān)于我們:
0 \9 M5 @% h! f; Q深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計和仿真軟件,提供成熟的設(shè)計解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。
( I5 S( O% J0 e# k& Y! H3 e! u2 D M, X$ `' w3 ~
http://www.latitudeda.com/
( a( p5 p$ s5 f) K% I% @( N3 |(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|