NVIDIA Mellanox MCX556A-ECAT Beraksi: RDMA/RoCE Memungkinkan Latensi Ultra-Rendah dan Terobosan Throughput Server
April 23, 2026
Dalam penyimpanan terdistribusi, komputasi berkinerja tinggi (HPC), dan kluster pelatihan AI, latensi jaringan dan overhead CPU telah lama membatasi efisiensi server secara keseluruhan.Sebuah penyebaran baru-baru ini di penyedia layanan cloud skala besar menunjukkan bagaimanaNVIDIA Mellanox MCX556A-ECATmengatasi tantangan-tantangan ini melalui teknologi RDMA dan RoCE, memberikan keuntungan yang terukur dalam pengurangan throughput dan latency.
Pelanggan mengoperasikan multi-petabyte Ceph storage cluster yang mendukung ribuan mesin virtual.infrastruktur 25GbE mereka menggunakan standar TCP/IP menderita dari pemanfaatan CPU yang tinggi (lebih dari 60% pada node penyimpanan) dan latensi yang tidak konsisten selama beban puncak. jendela cadangan sering melebihi delapan jam, dan pekerjaan pelatihan AI mengalami I / O stall. tim membutuhkan solusi yang dapat mengurangi intervensi CPU, latensi yang lebih rendah,dan skala tanpa perbaikan infrastruktur yang lengkapSetelah meninjauLembar data MCX556A-ECATdan membandingkanSpesifikasi MCX556A-ECAT, mereka memilihMCX556A-ECATsebagai komponen upgrade inti.
Arsitektur yang berpusat padaKartu adaptor Ethernet MCX556A-ECAT, adaptor dual-port 100GbE yang mendukung PCIe 3.0/4.0 x16.MCX556A-ECAT ConnectX adaptor kartu jaringan PCIe, memungkinkan RoCE v2 di seluruh topologi leaf-spine yang ada dengan perubahan saklar minimal.
- Mengganti adaptor 25GbE lama denganMCX556A-ECATpada 40 node penyimpanan dan 150 node komputasi.
- Mengaktifkan hardware offload: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA, dan T10-DIF untuk integritas data.
- Mengkonfigurasi Kontrol Aliran Prioritas (PFC) dan Pemilihan Transmisi yang Ditingkatkan (ETS) untuk transportasi RoCE tanpa kerugian.
- MemverifikasiMCX556A-ECAT kompatibelstatus dengan switch spektrum Mellanox yang ada dan optik QSFP28.
Seluruh penyebaran memakan waktu dua akhir pekan, tanpa downtime menggunakan migrasi langsung untuk beban kerja komputasi.
Pengukuran setelah penerapan menunjukkan peningkatan dramatis di semua metrik utama.
| Metrik | Sebelumnya (25GbE TCP/IP) | Setelah (MCX556A-ECAT dengan RoCE) | Peningkatan |
|---|---|---|---|
| Penggunaan CPU node penyimpanan | 62% | 18% | ↓ 71% |
| Rata-rata latensi (4K random read) | 450 μs | 42 μs | ↓ 90,7% |
| Total cluster throughput | 38 Gb/s | 172 Gb/s | ↑ 353% |
| Durasi jendela cadangan | 8.5 jam | 1.8 jam | 79% |
Di luar angka, tim rekayasa melaporkan bahwa RDMA mengurangi jitter secara signifikan, menghilangkan "latensi ekor" lonjakan yang sebelumnya mengganggu titik pemeriksaan pelatihan AI.Solusi kartu adaptor Ethernet MCX556A-ECAT, kartu ini juga menyederhanakan pemecahan masalah melalui telemetri terintegrasi dan pemberitahuan kemacetan.Harga MCX556A-ECATterhadap peningkatan kinerja, pelanggan mencapai ROI dalam waktu sembilan bulan murni dari penghematan inti CPU dan penyelesaian batch pekerjaan yang lebih cepat.MCX556A-ECAT untuk dijualmelalui beberapa mitra saluran, membuat tingkat kinerja ini dapat diakses oleh perusahaan tingkat menengah juga.
Pengembangan ini membuktikan bahwaMCX556A-ECATmemberikan janjinya: sub-mikrosecond RDMA latency, drastic CPU offload, dan linear throughput scaling.NVIDIA Mellanox MCX556A-ECATmenawarkan fondasi uji masa depan. karena 100GbE menjadi standar baru untuk tulang belakang pusat data, solusi yang dibangun di sekitar adaptor ini akan terus mengungguli tumpukan TCP / IP warisan.Untuk perencanaan rinci, merujuk pada pejabatLembar data MCX556A-ECATatau berkonsultasi dengan arsitek solusi untuk memvalidasiMCX556A-ECAT kompatibelkonfigurasi untuk lingkungan spesifik Anda.

