Praktik Aplikasi: NVIDIA Mellanox MCX631102AN-ADAT – Transport Latensi Rendah RDMA/RoCE & Peningkatan Throughput Server

April 27, 2026

Dalam penyimpanan terdistribusi, komputasi berkinerja tinggi, dan klaster pelatihan AI, latensi jaringan dan beban CPU telah menjadi hambatan utama yang membatasi kinerja server. Penyedia layanan cloud baru-baru ini meningkatkan backend penyimpanan NVMe-oF mereka dengan memilih NVIDIA Mellanox MCX631102AN-ADAT. Dengan menerapkan RDMA over Converged Ethernet (RoCEv2), mereka mencapai latensi rendah ujung ke ujung dan peningkatan throughput server yang signifikan. Studi kasus ini menguji bagaimana adapter berkinerja di lingkungan produksi.

Latar Belakang & Tantangan: Hambatan Tumpukan Protokol TCP/IP

Infrastruktur 25GbE yang ada dari penyedia menangani lalu lintas penyimpanan menggunakan tumpukan perangkat lunak TCP/IP tradisional. Dalam skenario NVMe/TCP, pemanfaatan CPU untuk enkapsulasi dan dekapsulasi paket melebihi 40%, yang mengakibatkan latensi penyimpanan di atas 200µs dan kapasitas komputasi yang sangat berkurang pada server aplikasi. Arsitek sangat membutuhkan solusi yang dapat melewati tumpukan jaringan kernel, mengurangi gangguan CPU, dan mempertahankan throughput kecepatan jalur pada tautan ganda 25GbE. Setelah mengevaluasi beberapa opsi, mereka memilih MCX631102AN-ADAT ConnectX-6 Lx dual-port 25GbE SFP28 sebagai perangkat keras inti untuk renovasi jaringan penyimpanan mereka.

Solusi & Penerapan: RDMA/RoCEv2 dengan Offload Perangkat Keras

Penerapan mengganti semua server yang menghadap penyimpanan dengan kartu adapter Ethernet MCX631102AN-ADAT, berjalan dalam mode tanpa kehilangan RoCEv2 (menggunakan ECN dan PFC). Langkah-langkah penerapan utama meliputi:

Mengaktifkan SR-IOV dan mendedikasikan fungsi virtual (VF) ke mesin virtual penyimpanan, melewati tumpukan jaringan hypervisor
Mengonfigurasi NVMe over Fabrics (NVMe-oF) dengan transportasi RDMA, menghilangkan overhead TCP sepenuhnya
Menyesuaikan ambang batas buffer switch untuk lalu lintas RoCE 25GbE tanpa kehilangan di seluruh topologi leaf-spine

Spesifikasi MCX631102AN-ADAT — termasuk stempel waktu perangkat keras, transportasi koneksi dinamis (DCT), dan mesin penerima vektor — dimanfaatkan sepenuhnya untuk memastikan latensi sub-mikrodetik yang dapat diprediksi bahkan di bawah beban agregat 50Gbps.

Peningkatan Kinerja yang Diukur & Manfaat Operasional

Setelah migrasi ke jaringan berbasis NVIDIA Mellanox MCX631102AN-ADAT, metrik berikut ditangkap:

Metrik	Sebelum (TCP/IP 25GbE)	Setelah (RoCEv2 dengan MCX631102AN-ADAT)
Latensi Baca NVMe-oF (P99)	215 µs	18 µs
Pemanfaatan CPU (Jalur I/O Penyimpanan)	41% (inti tunggal jenuh)	7% (terdistribusi di seluruh inti)
Throughput Server Agregat (RX+TX)	42 Gbps (dibatasi perangkat lunak)	49,8 Gbps (kecepatan jalur)
Throughput Paket Kecil (64B)	8,1 Mpps	37,5 Mpps (pengarah aliran perangkat keras)

Para insinyur mencatat bahwa solusi kartu adapter Ethernet MCX631102AN-ADAT memberikan latensi ekor yang dapat diprediksi yang cocok untuk database analitik real-time. Selain itu, inti CPU yang dibebaskan ditugaskan kembali ke beban kerja aplikasi, meningkatkan kepadatan penyewa secara keseluruhan sekitar 24% pada server fisik yang sama.

Kompatibilitas & Integrasi Ekosistem

Saat memperluas penerapan, tim operasi memverifikasi bahwa adapter MCX631102AN-ADAT kompatibel dengan switch NVIDIA Spectrum mereka yang ada (profil RoCE tanpa kehilangan), serta switch ToR pihak ketiga dari Arista dan Cisco dengan konfigurasi DCBX. Untuk perencanaan pengadaan, mereka merujuk ke lembar data MCX631102AN-ADAT untuk memvalidasi amplop daya (sekitar 12W tipikal) dan persyaratan termal. Pertanyaan massal awal mengonfirmasi bahwa harga MCX631102AN-ADAT tetap kompetitif dibandingkan dengan SmartNIC kelas serupa, dengan beberapa distributor mencantumkan MCX631102AN-ADAT untuk dijual di bawah perjanjian volume standar.

Ringkasan & Prospek

Studi kasus produksi dengan jelas menunjukkan bahwa MCX631102AN-ADAT memungkinkan pergeseran mendasar dari jaringan penyimpanan yang terikat TCP ke jaringan yang dipercepat RDMA tanpa memerlukan perombakan infrastruktur 100GbE yang lengkap. Dengan memanfaatkan desain MCX631102AN-ADAT ConnectX-6 Lx dual-port 25GbE SFP28, organisasi dapat menggandakan throughput efektif untuk beban kerja yang sensitif terhadap latensi sambil memulihkan sumber daya CPU yang signifikan. Ke depan, pola penerapan yang sama akan diperluas ke kerangka kerja pembelajaran mesin terdistribusi (NCCL di atas RoCE) dan aplikasi stateful berbasis microservices. Bagi arsitek yang mengevaluasi peningkatan 25GbE, NVIDIA Mellanox MCX631102AN-ADAT berdiri sebagai blok bangunan yang terbukti dan teruji di produksi untuk jaringan pusat data berkinerja tinggi dan latensi rendah.