Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Switch dalam Aksi. Optimasi Interkoneksi Low-Latency untuk RDMA/HPC/AI.

May 28, 2026

Ketika klaster pelatihan AI berskala besar dan pusat komputasi kinerja tinggi (HPC) mendorong kebutuhan bandwidth dan latensi jaringan ke tingkat yang belum pernah terjadi sebelumnya, solusi Ethernet tradisional semakin kesulitan dalam mengendalikan kemacetan dan latensi ekor yang tidak dapat diprediksi pada beban kerja RDMA. Sebuah pusat superkomputer nasional terkemuka baru-baru ini menghadapi tantangan ini ketika meningkatkan cluster GPU generasi berikutnya. Setelah mengevaluasi beberapa opsi interkoneksi, tim memilihMellanox (NVIDIA) MQM9790-NS2Fsebagai peralihan struktur inti — sebuah keputusan yang secara mendasar mengubah profil kinerja klaster mereka.

Latar Belakang & Tantangan: Dinding Skalabilitas

Struktur HDR InfiniBand yang ada di pusat superkomputer beroperasi mendekati saturasi. Dengan lebih dari 2.000 GPU yang menjalankan tugas pelatihan AI paralel, operasi komunikasi kolektif seperti all-reduce dan all-to-all mengalami lonjakan latensi yang signifikan. Jaringan telah menjadi penghambat utama, menyebabkan waktu menganggur GPU yang menyia-nyiakan sumber daya komputasi dan energi. Para insinyur memperkirakan bahwa hampir 30% siklus komputasi hilang karena overhead komunikasi selama pelaksanaan pelatihan terdistribusi skala besar.

Yang dibutuhkan tim adalah peralihan yang mampu mewujudkannya400 Gb/dtk per port, dukungan RDMA asli, dan akselerasi komputasi dalam jaringan — semuanya sambil mempertahankan kompatibilitas dengan infrastruktur HDR yang ada. Setelah meninjauLembar data MQM9790-NS2FDanSpesifikasi MQM9790-NS2F, mereka memutuskan bahwaSakelar InfiniBand MQM9790-NS2Fmenawarkan keseimbangan ideal antara kepadatan, kinerja, dan rangkaian fitur.

Solusi & Penerapan: Peningkatan Fabric NDR 64-Port

Pusat mengerahkan empat orangMQM9790-NS2F 400 Gb/s NDR 64-port OSFPberalih dalam topologi spine-leaf, menghubungkan 2.048 GPU di 64 node komputasi. Setiap node terhubung melalui satu kabel splitter OSFP ke 4x100 Gb/s, menyediakan bandwidth agregat 400 Gb/s per server sekaligus mengoptimalkan kepadatan manajemen kabel.

Parameter Penerapan	Konfigurasi
Ganti Model	NVIDIA Mellanox MQM9790-NS2F(4 unit)
Konfigurasi Pelabuhan	OSFP 64x, NDR 400 Gb/dtk per port
Total GPU	2.048 (NVIDIA H100)
Fitur Dalam Jaringan	SHARPv3, Perutean Adaptif, Kontrol Kemacetan

Kunci penerapannya adalah memastikan penuhKompatibel dengan MQM9790-NS2Fpengoperasian dengan adaptor titik akhir HDR yang ada. Negosiasi kecepatan otomatis dan terjemahan lapisan tautan pada switch memungkinkan strategi migrasi bertahap — node lama beroperasi pada kecepatan HDR sementara server baru berkemampuan NDR memanfaatkan bandwidth penuh 400 Gb/s. Pusat ini juga memanfaatkan agregasi dalam jaringan SHARPv3, mengurangi lalu lintas pengurangan semua lebih dari 65% untuk ukuran pesan besar yang biasa ditemukan dalam pelatihan LLM.

Bagi mereka yang mengevaluasi peningkatan serupa,Harga MQM9790-NS2Fpertanyaan danMQM9790-NS2F untuk dijualketersediaannya telah meningkat secara signifikan di kalangan pelanggan perusahaan dan penelitian. Total biaya kepemilikan switch yang kompetitif — memperhitungkan jumlah switch yang lebih rendah karena kepadatan 64 port — menjadikannya pilihan yang menarik baik untuk pembangunan baru maupun proyek penyegaran.

Hasil & Manfaat: Peningkatan Kinerja yang Terukur

Latensi pengurangan semua (pesan 1 GB):Dikurangi dari 48µs menjadi 19µs (peningkatan 60%)
Pemanfaatan GPU yang efektif:Meningkat dari 71% menjadi 93% selama pelatihan skala besar
Waktu penyelesaian pekerjaan (setara GPT-3 175B):Dipersingkat sebesar 41%
Latensi ekor yang diinduksi jaringan (persentil ke-99):Dipotong dari 210µs menjadi di bawah 35µs

SebagaiSolusi sakelar InfiniBand MQM9790-NS2F, penerapan ini menunjukkan bahwa fabric NDR 400 Gb/s dapat memenuhi janji teoretisnya. Kombinasi algoritme kontrol kemacetan dan perutean adaptif menghilangkan pola keruntuhan "incast" yang mengganggu struktur HDR sebelumnya selama fase komunikasi semua-ke-semua.

Ringkasan & Pandangan: Landasan untuk AI Exascale

Kesuksesan pusat superkomputer denganMQM9790-NS2Ftelah mempercepat peta jalan mereka menuju kemampuan AI skala besar. Mereka sekarang merencanakan fase kedua yang akan menggandakan jumlah GPU menjadi 4.096 dengan menggunakan tambahanMQM9790-NS2F 400 Gb/s NDR 64-port OSFPberalih dalam topologi pohon lemak tiga tingkat. Fitur telemetri dan manajemen out-of-band pada switch juga memungkinkan penghindaran kemacetan prediktif, sehingga mengurangi overhead operasional untuk tim jaringan.

Untuk arsitek jaringan dan manajer TI yang mengevaluasi struktur generasi berikutnya,NVIDIA Mellanox MQM9790-NS2Fmewakili solusi yang matang dan telah terbukti dalam produksi. Baik Anda sedang membangun klaster penelitian AI baru atau meningkatkan fasilitas HPC yang sudah ada, peralihan ini memberikan landasan latensi rendah dan bandwidth tinggi yang diperlukan untuk beban kerja paralel modern.