NVIDIA Mellanox MQM8790-HS2F dalam Aksi: Optimasi Interkoneksi Latensi Rendah untuk Kluster RDMA/HPC/AI

April 10, 2026

Latar Belakang & Tantangan: Saat Jaringan Menjadi Bottleneck

Sebuah organisasi riset AI yang berkembang pesat menghadapi masalah yang umum terjadi: kluster 200+ GPU mereka, yang digunakan untuk pelatihan model bahasa besar dan simulasi dinamika molekuler, mengalami waktu penyelesaian pekerjaan yang tidak dapat diprediksi. Meskipun memiliki node komputasi yang kuat, jaringan Ethernet 100Gb/s yang ada menderita lonjakan latensi ekor, kehilangan paket di bawah pola incast, dan overhead CPU yang tinggi karena pemrosesan tumpukan TCP/IP tradisional. Tim membutuhkan solusi yang dapat memberikan latensi konsisten di bawah mikrodetik, sepenuhnya mendukung RDMA untuk GPU Direct, dan dapat diskalakan tanpa peningkatan besar. Setelah mengevaluasi opsi yang tersedia, mereka memilih 迈络思(NVIDIA Mellanox) MQM8790-HS2F sebagai blok bangunan inti untuk jaringan kluster generasi berikutnya.

Solusi & Penerapan: Mengintegrasikan Switch InfiniBand MQM8790-HS2F

Organisasi menerapkan switch InfiniBand MQM8790-HS2F dalam topologi fat-tree dua tingkat, menghubungkan 128 node komputasi (masing-masing dilengkapi dengan adapter NVIDIA ConnectX-6 HDR) dan 4 node penyimpanan. Dengan 40 port QSFP56 yang berjalan pada 200Gb/s HDR, satu NVIDIA Mellanox MQM8790-HS2F menyediakan kapasitas switching non-blocking 16Tb/s—cukup untuk menggantikan dua switch Ethernet lama sambil mengurangi kompleksitas kabel. Penerapan memanfaatkan dukungan asli MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 untuk RDMA dan GPUDirect, memungkinkan akses memori langsung antara GPU di berbagai server tanpa intervensi CPU.

Detail implementasi utama meliputi:

Perutean adaptif untuk menyeimbangkan lalu lintas secara otomatis di berbagai jalur, menghilangkan titik panas.
SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) untuk agregasi dalam jaringan, mempercepat operasi All-Reduce hingga 2,5x.
Kontrol kongesti di tingkat switch, mencegah pemblokiran head-of-line yang umum terjadi di lingkungan Ethernet yang rentan kehilangan paket.

Sebelum pembelian, tim teknik meninjau lembar data MQM8790-HS2F dan spesifikasi MQM8790-HS2F untuk mengonfirmasi kompatibilitas dengan kabel dan transceiver Mellanox yang ada. Ekosistem MQM8790-HS2F yang kompatibel—termasuk kabel optik dan tembaga HDR—memungkinkan mereka menggunakan kembali 40% dari investasi interkoneksi sebelumnya, secara signifikan menurunkan hambatan untuk peningkatan.

Hasil & Manfaat: Peningkatan Kinerja dan Efisiensi yang Terukur

Setelah migrasi ke jaringan berbasis MQM8790-HS2F, organisasi mendokumentasikan tiga kategori peningkatan:

Pengurangan latensi: Latensi MPI ping-pong rata-rata turun dari 2,1µs (Ethernet RoCE) menjadi 0,82µs, dengan latensi ekor hampir sepenuhnya dihilangkan.
Throughput pekerjaan: Pekerjaan pelatihan terdistribusi (berbasis NCCL) selesai 37% lebih cepat karena pengurangan overhead komunikasi dan percepatan SHARPv3.
Offload CPU: RDMA melalui InfiniBand mengurangi utilisasi CPU untuk jaringan dari ~15% menjadi di bawah 2%, membebaskan inti untuk komputasi.

Dalam benchmark komunikasi all-to-all 128-GPU, solusi switch InfiniBand MQM8790-HS2F mempertahankan 198Gb/s per port dengan nol kehilangan paket, dibandingkan dengan 112Gb/s dengan 1,2% kehilangan pada jaringan Ethernet sebelumnya. Untuk simulasi keuangan yang dijalankan oleh tim yang sama, variabilitas pekerjaan berkurang sebesar 78%, memungkinkan SLA yang lebih ketat dan waktu berjalan yang dapat diprediksi.

Ringkasan & Prospek: Investasi yang Tahan Masa Depan

Penerapan dunia nyata ini menunjukkan bahwa MQM8790-HS2F lebih dari sekadar hero di lembar spesifikasi—ia memberikan manfaat nyata untuk beban kerja HPC dan AI produksi. Kombinasi throughput 200Gb/s HDR, 40 port berdensitas tinggi, dan komputasi dalam jaringan yang canggih mengubah ekonomi kluster dengan mengurangi waktu penyelesaian pekerjaan dan overhead operasional. Bagi para pemimpin TI yang mengevaluasi harga MQM8790-HS2F terhadap peningkatan kinerja, studi kasus ini menunjukkan ROI di bawah 12 bulan berdasarkan peningkatan efisiensi komputasi saja.

Saat organisasi berencana untuk menggandakan jumlah GPU mereka menjadi 400+ node, mereka telah menganggarkan unit MQM8790-HS2F untuk dijual tambahan untuk mempertahankan arsitektur fat-tree non-blocking. Kemampuan switch untuk mencampur kecepatan HDR dan EDR memastikan jalur migrasi yang mulus saat adapter lama secara bertahap diganti. Bagi arsitek yang merancang kluster berbasis RDMA generasi berikutnya, NVIDIA Mellanox MQM8790-HS2F menawarkan tulang punggung yang terbukti dan siap produksi yang dapat diskalakan dari riset AI departemen hingga superkomputasi exascale.