Adaptor Server NVIDIA Mellanox MCX653105A-HDAT Beraksi: Transportasi dan Server Latensi Rendah RDMA/RoCE
June 15, 2026
Di pusat data modern, penyimpanan terdistribusi, komputasi kinerja tinggi (HPC), dan kluster pelatihan AI menghadapi hambatan umum: jaringan. Tumpukan TCP/IP tradisional menimbulkan latensi dan overhead CPU yang signifikan, sehingga melumpuhkan kinerja aplikasi dalam skala besar. Studi kasus ini mengkaji bagaimana penyedia cloud skala menengah mengatasi tantangan-tantangan ini dengan menerapkannyaNVIDIA Mellanox MCX653105A-HDATadaptor server untuk mengaktifkan transportasi latensi rendah berbasis RDMA/RoCE dan secara dramatis meningkatkan throughput server.
Latar Belakang & Tantangan: Ketika Setiap Mikrodetik Berarti
Infrastruktur 25GbE milik penyedia, yang menjalankan TCP/IP standar, kesulitan untuk mendukung backend penyimpanan NVMe-over-Fabrics baru mereka. Pemanfaatan CPU pada node penyimpanan biasanya melebihi 70% hanya dari pemrosesan jaringan, dan latensi antar node berkisar sekitar 50µs — tidak dapat diterima untuk beban kerja database yang sensitif terhadap latensi. Selain itu, ketika skalanya mencapai ratusan node, kemacetan jaringan menyebabkan lonjakan latensi yang berdampak pada SLA aplikasi. Mereka membutuhkan solusi yang dapat mengurangi beban overhead jaringan, memberikan latensi sub-mikrodetik, dan mempertahankan performa yang konsisten saat beban.
Solusi & Penerapan: Memperkenalkan Kartu Jaringan PCIe Adaptor MCX653105A-HDAT ConnectX
Setelah mengevaluasi beberapa opsi, tim memilihKartu adaptor Ethernet MCX653105A-HDATuntuk kemampuan port ganda 100GbE dan dukungan asli untuk RoCE (RDMA over Converged Ethernet). ItuNVIDIA Mellanox MCX653105A-HDATdisebarkan di 120 node penyimpanan dan komputasi, dengan konfigurasi berikut:
- RoCE diaktifkandengan ECN (Pemberitahuan Kemacetan Eksplisit) dan DCQCN untuk pengendalian kemacetan
- Pembongkaran target NVMe-oFke perangkat keras, melewati CPU host untuk penyimpanan I/O
- Partisimenjadi aliran prioritas lossless untuk lalu lintas penyimpanan
- Pemantauan telemetrimenggunakan penghitung kinerja bawaan adaptor
MenurutLembar data MCX653105A-HDAT, kartu tersebut mendukung protokol InfiniBand dan Ethernet, namun tim memilih RoCEv2 untuk berintegrasi secara mulus dengan switch Ethernet yang ada. Kompatibilitasnya sangat mudah: semua model server utama demikianKompatibel dengan MCX653105A-HDAT, hanya memerlukan slot PCIe standar dan firmware yang diperbarui. Penerapan ini diselesaikan selama dua akhir pekan tanpa waktu henti, menggunakan fitur migrasi langsung adaptor.
Hasil & Manfaat: Peningkatan Kinerja yang Terukur
Dampaknya langsung dan besar. Tabel berikut merangkum metrik utama sebelum dan sesudah penerapanSolusi kartu adaptor Ethernet MCX653105A-HDAT:
| Metrik | Sebelumnya (TCP/IP) | Setelah (RoCE + MCX653105A-HDAT) | Peningkatan |
|---|---|---|---|
| Latensi rata-rata (node‑to‑node) | 52 mikrodetik | 1,8 mikrodetik | Pengurangan 96,5%. |
| Penggunaan CPU (node penyimpanan, tumpukan jaringan) | 72% | 8% | pengurangan 89%. |
| Throughput efektif per node (NVMe-oF) | 18 Gbps | 96Gbps | peningkatan 5,3x |
| Latensi ekor (persentil ke-99,9) | 380 mikrodetik | 12 mikrodetik | Pengurangan 96,8%. |
Di luar angka-angka ini, tim mencatat adanya manfaat operasional tambahan. ItuSpesifikasi MCX653105A-HDATmencakup pelacakan koneksi berbasis perangkat keras dan offload aliran ASAP2, yang mengurangi jitter lalu lintas Timur-Barat dan memungkinkan penskalaan yang lebih lancar. Saat mengevaluasi total biaya kepemilikan,Harga MCX653105A-HDATdibenarkan dalam waktu enam bulan dengan pengurangan biaya lisensi inti CPU dan kepadatan penyimpanan per node yang lebih tinggi. Adaptor sekarang banyak digunakanMCX653105A-HDAT untuk dijualmelalui saluran standar, menjadikan kinerja ini dapat diakses oleh organisasi dari semua ukuran.
Ringkasan & Pandangan: Landasan untuk Infrastruktur Generasi Berikutnya
Kasus ini menunjukkan bahwaMCX653105A-HDAT ConnectX adaptor kartu jaringan PCIebukan sekadar NIC yang lebih cepat — ini adalah platform untuk komputasi yang benar-benar berpusat pada data. Dengan mengaktifkan RDMA dan RoCE dengan pembongkaran perangkat keras,NVIDIA Mellanox MCX653105A-HDATmengubah cara server berkomunikasi, menghilangkan overhead protokol lama dan membuka potensi penuh penyimpanan NVMe dan struktur memori terdistribusi.
Kedepannya, penyedia berencana untuk memperluas penerapannya dengan menyertakan GPUDirect RDMA untuk beban kerja pelatihan AI, serta mengeksplorasi fitur kemampuan program adaptor untuk pemrosesan paket khusus. Untuk arsitek TI dan insinyur jaringan yang menghadapi tantangan penskalaan serupa,Kartu adaptor Ethernet MCX653105A-HDATmenawarkan jalur yang terbukti dan siap menghadapi masa depan menuju jaringan pusat data berlatensi rendah dan throughput tinggi.

