RDMA/RoCE Low-Latency Transport & Server Throughput Terobosan
April 29, 2026
Sebuah laboratorium penelitian AI yang berkembang pesat berjuang dengan masalah yang akrab: infrastruktur 100GbE mereka memberikan bandwidth tingkat kabel, tetapi latensi aplikasi tetap keras kepala tinggi.Pekerjaan pelatihan yang didistribusikan menderita seringnya jitter jaringan, dan akses penyimpanan NVMe-over-Fabrics menambahkan keterlambatan yang tidak terduga. penyebabnya? tumpukan TCP / IP tradisional mengkonsumsi hampir 30% dari core CPU hanya untuk pemrosesan paket,meninggalkan lebih sedikit komputasi untuk beban kerja yang sebenarnyaTim membutuhkan perubahan mendasar untuk memindahkan data tanpa membebani CPU host.Mellanox (NVIDIA Mellanox) MCX653105A-HDATNIC server.
Laboratorium mengerahkanMCX653105A-HDATdi 24 node komputasi, masing-masing dilengkapi dengan konektivitas dual-port 100GbE.MCX653105A-HDAT ConnectX adaptor kartu jaringan PCIe, mendukung RoCE hardware-offloaded (RDMA over Converged Ethernet), memungkinkan data untuk melewati kernel dan bergerak langsung antara wilayah memori.setelah memverifikasiMCX653105A-HDAT kompatibelserver (Supermicro dan Dell PowerEdge), insinyur menginstal driver MLNX_OFED terbaru dan memungkinkan RoCE dengan kontrol kemacetan DCQCN.Kartu adaptor Ethernet MCX653105A-HDATlangsung lepas beban pemrosesan jaringan dari CPU, mengurangi overhead perangkat lunak ke hampir nol.
Untuk lalu lintas penyimpanan, tim memetakan ruang nama NVMe langsung melalui RDMA.NVIDIA Mellanox MCX653105A-HDATGerakan data ditangani dengan latensi sub-mikrosekund, sementara kemudi berbasis perangkat keras memastikan isolasi antara aliran komputasi dan penyimpanan.Lembar data MCX653105A-HDAT, adaptor mendukung hingga 200Gb/s agregat throughput dan dalam prakteknya, laboratorium mencapai line rate 100GbE per port tanpa satu paket yang jatuh di bawah beban penuh.
- 50% pengurangan latensi ujung ke ujung:Tes ping-pong MPI turun dari 2,8 μs (TCP) menjadi 1,4 μs (RoCE).
- Penggunaan CPU berkurang sebesar 70%:Pemrosesan jaringan tumpukan dipindahkan sepenuhnya ke perangkat keras, membebaskan inti untuk pelatihan model.
- Storage IOPS dua kali lipat:NVMe-oF melalui RDMA menghilangkan jembatan perangkat lunak, mendorong latensi di bawah 10μs untuk akses blok kecil.
Tim juga memvalidasiSpesifikasi MCX653105A-HDATdengan lingkungan produksi mereka: antarmuka PCIe 4.0 x16, desain termal dua slot, dan dukungan penuh untuk pemberitahuan kemacetan RoCE.Harga MCX653105A-HDATdibandingkan dengan total biaya kepemilikan, adaptor membayar sendiri dalam waktu tiga bulan dengan mengurangi penyebaran server dan meningkatkan kepadatan beban kerja.MCX653105A-HDAT untuk dijualmelalui distributor resmi, mereka menemukan berbagai pilihan konfigurasi (port tunggal, dual-port, dengan atau tanpa boot aman).
| Metrik | Sebelum (TCP) | Setelah (MCX653105A-HDAT / RoCE) | Peningkatan |
|---|---|---|---|
| MPI Ping-Pong Latency | 20,8 μs | 1.4 μs | -50% |
| Penggunaan CPU (Network Stack) | ~ 30% (8 inti) | ~ 5% (hardware yang tidak terisi) | -83% |
| NVMe-oF IOPS blok kecil | 320 ribu. | 680k | +112% |
Pengembangan ini mengkonfirmasi bahwaNVIDIA Mellanox MCX653105A-HDATadalah lebih dari sebuah NIC kecepatan tinggi, ini adalah platform akselerasi data yang lengkap.organisasi dapat membebaskan diri dari jaringan yang terikat CPU tanpa upgrade forkliftApakah Anda menjalankan pelatihan AI, basis data terdistribusi, atau penyimpanan hiperkonvergen,MCX653105A-HDAT ConnectX adaptor kartu jaringan PCIeUntuk tim yang merencanakan pembaruan infrastruktur berikutnya, meninjauLembar data MCX653105A-HDATdanSpesifikasi MCX653105A-HDATadalah langkah pertama yang logis.MCX653105A-HDAT untuk dijual"Selain itu, kami juga dapat mengoptimalkan layanan kami melalui distributor global, dan kompatibilitas dengan platform server terkemuka memastikan jalur migrasi yang mulus.Kartu adaptor Ethernet MCX653105A-HDATmengubah kain 100GbE kami dari kemacetan menjadi perkalian kinerja".

