Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 InfiniBand Switch dalam Produksi

April 15, 2026

Latar Belakang & Tantangan: Tembok Skalabilitas di Kluster Pelatihan AI

Sebuah lembaga penelitian AI terkemuka di Asia Timur menghadapi kemacetan umum namun kritis.mengalami penurunan kinerja yang parah karena pekerjaan berskala. Penyebabnya adalah warisan 100Gb / s Ethernet kain, di mana TCP / IP overhead dan kehilangan paket selama incast peristiwa menyebabkan GPU waktu kosong hingga 35%.kain ultra-low-latency yang dapat mendukung RDMA dan skala hingga ribuan node tanpa mengorbankan kinerja deterministikSetelah mengevaluasi beberapa solusi, mereka memilihMellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0InfiniBand switch sebagai inti dari arsitektur tulang belakang baru mereka.

Solusi & Penerapan: Mengintegrasikan 920-9B210-00FN-0D0 ke dalam Kain NDR

Penyebaran berpusat di sekitar920-9B210-00FN-0D0sebagai lapisan tulang belakang, dengan 32 switch daun yang menghubungkan 512 GPU NVIDIA A100 melalui adaptor ConnectX-7.920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/sSwitch menyediakan 400Gb/s per port, menggandakan bandwidth dari solusi HDR sebelumnya sambil mempertahankan latensi switching sub-mikrosekund.920-9B210-00FN-0D0 InfiniBand switch OPNPengadaan yang disederhanakan dan memastikan konsistensi firmware di semua unit.Data sheet 920-9B210-00FN-0D0danSpesifikasi 920-9B210-00FN-0D0untuk memvalidasi kebutuhan daya dan termal, memungkinkan integrasi mulus ke rak 19 "yang ada.920-9B210-00FN-0D0 kompatibeldengan infrastruktur HDR yang ada dan titik akhir NDR yang lebih baru, memungkinkan migrasi bertahap.

Hasil Kinerja & Manfaat Operasional

RDMA Efisiensi Mencapai:DenganNVIDIA Mellanox 920-9B210-00FN-0D0memungkinkan kontrol kemacetan berbasis perangkat keras, RDMA menulis latensi turun dari 12μs menjadi 1.2μs. GPU langsung RDMA (GDR) menjadi sepenuhnya efektif, menghilangkan kemacetan memori CPU.
Kecepatan Aplikasi HPC:Sebuah kode pemodelan cuaca kunci (berbasis MPI) melihat peningkatan kinerja 2,7x karena routing adaptif switch dan SHARP v2 kolektif offloads.
Hasil Pelatihan AI:Untuk pekerjaan pelatihan LLM 175 miliar parameter, kain baru mengurangi semua waktu pengurangan sebesar 68%, meningkatkan penggunaan GPU secara keseluruhan dari 62% menjadi 91%.
Kesederhanaan Operasional:Peraturan920-9B210-00FN-0D0 Solusi InfiniBand switch OPNManajer TI melaporkan pengurangan 50% dalam waktu pemecahan masalah terkait jaringan.

Pengamatan Biaya & Ketersediaan

Dalam evaluasi proyek, lembaga penelitian membandingkan920-9B210-00FN-0D0 hargaMeskipun biaya awal yang lebih tinggi, total cost of ownership (TCO) mendukung InfiniBand karena pemanfaatan GPU yang lebih tinggi dan daya per Gb / s yang lebih rendah.Unit tersedia dengan mudah sebagai920-9B210-00FN-0D0 dijualmelalui saluran distribusi NVIDIA, dengan lead time yang jauh lebih pendek daripada switch NDR lainnya.Spesifikasi 920-9B210-00FN-0D0juga mengkonfirmasi dukungan untuk sumber daya redundant dan kipas panas-swappable, memenuhi persyaratan keandalan lembaga untuk operasi penelitian AI 24/7.

Spesifikasi Teknis Utama

Parameter	Rincian
Model	NVIDIA Mellanox 920-9B210-00FN-0D0
Kecepatan Pelabuhan	400Gb/s NDR (per port)
OPN dasar	920-9B210-00FN-0D0 InfiniBand switch OPN
Konfigurasi penuh	920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s

Ringkasan & Prospek: Standar untuk Kain AI Generasi Berikutnya

Institut penelitian AI sekarang telah menstandarisasi pada920-9B210-00FN-0D0untuk semua ekspansi cluster di masa depan, termasuk yang direncanakan 2.048-GPU NDR200 kain.NVIDIA Mellanox 920-9B210-00FN-0D0adalah bukan hanya switch it adalah komponen dasar untuk mencapai skala kinerja linier di lingkungan AI dan HPC. Untuk arsitek dan manajer TI yang ingin menghilangkan kemacetan jaringan,yang920-9B210-00FN-0D0 Solusi InfiniBand switch OPNmenawarkan jalan maju yang terbukti dan siap untuk produksi.