Solusi Teknis Switch InfiniBand NVIDIA Mellanox MQM9790-NS2F

April 13, 2026

Solusi Teknis Switch InfiniBand NVIDIA Mellanox MQM9790-NS2F

Whitepaper teknis ini dirancang untuk arsitek jaringan, insinyur pra-penjualan, dan pemimpin operasi. Whitepaper ini berpusat pada  — switch InfiniBand NDR 400Gb/s — dan memberikan panduan terperinci tentang desain arsitektur, teknologi utama, penerapan dan penskalaan, serta operasi dan pemantauan, khususnya untuk optimasi interkoneksi latensi rendah klaster RDMA/HPC/AI.

1. Latar Belakang Proyek & Analisis Persyaratan

Beban kerja pelatihan AI dan HPC modern mendorong klaster dari ribuan hingga puluhan ribu GPU. Dalam lingkungan seperti itu, interkoneksi jaringan telah menjadi hambatan utama. Jaringan Ethernet tradisional berjuang dengan latensi ekor dan overhead CPU, sementara penerapan InfiniBand lama mungkin kekurangan kepadatan port dan bandwidth yang memadai. Persyaratan utama meliputi latensi switching di bawah mikrodetik, penerusan kecepatan garis penuh tanpa kehilangan paket, dukungan RDMA yang efisien, dan skalabilitas yang mulus hingga ratusan switch. NVIDIA Mellanox MQM9790-NS2F secara langsung mengatasi kebutuhan ini dengan kemampuan NDR 400Gb/s dan fitur komputasi dalam jaringan yang canggih.

2. Desain Arsitektur Jaringan & Sistem Keseluruhan

Arsitektur yang direkomendasikan mengadopsi topologi Fat-Tree dua lapis (juga dikenal sebagai Clos terlipat), yang menyeimbangkan bandwidth bisection, biaya, dan skalabilitas. Pada lapisan leaf, server GPU yang dilengkapi dengan adaptor ConnectX-7 NDR terhubung ke switch leaf. Pada lapisan spine, unit MQM9790-NS2F InfiniBand switch menyediakan konektivitas non-blocking antara leaf. Desain ini memastikan bandwidth bisection penuh: setiap switch leaf dapat berkomunikasi dengan switch leaf lainnya dengan kecepatan kawat. Untuk klaster skala besar, topologi tiga lapis (leaf-spine-super-spine) dapat diterapkan, mendukung hingga puluhan ribu node GPU.

  • Switch Leaf: Model 64-port OSFP, masing-masing terhubung ke 32 server (port ganda) ditambah uplink ke spine.
  • Lapisan Spine: Switch MQM9790-NS2F 400Gb/s NDR 64-port OSFP
  • , dengan setiap port bertindak sebagai uplink dari leaf. Desain yang sepenuhnya non-blocking membutuhkan port spine sama dengan jumlah switch leaf.Manajemen Subnet:

Manajer subnet yang didedikasikan atau redundan menangani perhitungan jalur, perutean adaptif, dan failover.

3. Peran & Fitur Utama NVIDIA Mellanox MQM9790-NS2F dalam Solusi MQM9790-NS2F

  • memberikan beberapa kemampuan penting:Kinerja kecepatan garis NDR 400Gb/s:
  • Masing-masing dari 64 port OSFP beroperasi pada full duplex 400Gb/s, menyediakan kapasitas switching agregat 51,2Tb/s.Latensi ultra-rendah & perutean adaptif:
  • Switching cut-through menjaga latensi port-ke-port di bawah 130ns. Perutean adaptif secara dinamis menyeimbangkan lalu lintas di berbagai jalur, menghindari hot spot.Komputasi dalam jaringan (SHARPv3):
  • Mendukung agregasi dan reduksi hierarkis yang dapat diskalakan, membebaskan operasi kolektif dari CPU/GPU dan mengurangi pergerakan data hingga 10x.Desain native RDMA:
  • RDMA yang dipercepat perangkat keras memungkinkan akses memori GPU langsung, menghilangkan keterlibatan CPU dan secara dramatis menurunkan overhead komunikasi.Telemetri & QoS Komprehensif:

Kontrol kongesti granular, pemantauan buffer, dan klasifikasi aliran memastikan kinerja deterministik untuk beban kerja campuran. memberikan jalur yang jelas untuk membangun fabric latensi rendah dan bandwidth tinggi untuk klaster RDMA/HPC/AI yang menuntut. Kepadatan 400Gb/s 64-port, switching di bawah mikrodetik, dan kemampuan komputasi dalam jaringan secara langsung mengatasi tantangan skalabilitas dan kinerja beban kerja modern. Dengan mengadopsi arsitektur yang diuraikan di atas — topologi Fat-Tree, switch inti NDR, dan operasi native RDMA — organisasi dapat mencapai penskalaan GPU linier, mengurangi waktu penyelesaian pekerjaan lebih dari 30%, dan menyederhanakan manajemen fabric. Untuk perencanaan terperinci, lihat datasheet MQM9790-NS2F

, switch ini juga mendukung catu daya dan kipas yang dapat diganti saat panas, port manajemen redundan, dan rangkaian diagnostik lengkap, membuatnya cocok untuk lingkungan produksi 7x24.

4. Rekomendasi Penerapan & Penskalaan (dengan Topologi Khas)Klaster 2.048-GPU yang khas dapat dibangun menggunakan 64 switch leaf dan 32 switch spine. Setiap leaf terhubung ke 32 server GPU (port ganda) dan menyediakan 32 uplink ke spine. Lapisan spine terdiri dari unit MQM9790-NS2F compatible

yang menjalankan optik NDR atau kabel DAC. Untuk ekspansi ke 8.192 GPU, lapisan super-spine ditambahkan, menghubungkan beberapa pod.

  • Saat melakukan penskalaan, pertimbangkan hal berikut:Kabel dan optik: Gunakan DAC OSFP-ke-OSFP untuk tautan intra-rak pendek, dan kabel breakout OSFP-ke-4xOSFP atau modul optik untuk jarak yang lebih jauh. Verifikasi kompatibilitas dengan spesifikasi MQM9790-NS2F
  • mengenai jangkauan dan anggaran daya.Ukuran subnet:
  • Satu manajer subnet dapat menangani hingga 2.000 node; di luar itu, terapkan beberapa subnet atau gunakan desain manajer subnet terdistribusi.Redundansi:Solusi Solusi switch InfiniBand MQM9790-NS2F

mendukung failover tanpa gangguan dengan konfigurasi SM yang tepat.

5. Operasi, Pemantauan, Pemecahan Masalah & Optimasi

  • Operasi yang efektif membutuhkan visibilitas dan otomatisasi. Praktik berikut direkomendasikan:Pemantauan:
  • Gunakan Fabric Manager dan API telemetri NVIDIA untuk melacak kesalahan port, suhu, konsumsi daya, dan pemanfaatan tautan. Atur peringatan untuk kesalahan CRC atau kesalahan simbol yang melebihi ambang batas.Pemecahan Masalah: MQM9790-NS2F
  • menyediakan penghitung per-port, histogram okupansi buffer, dan log kongesti. Jika terjadi penurunan kinerja, periksa konfigurasi perutean adaptif, pastikan semua tautan fabric simetris, dan verifikasi bahwa agregasi SHARP diaktifkan untuk kolektif yang didukung.Optimasi: resmi dan panduan kompatibilitas. Untuk mendiskusikan desain yang disesuaikan atau mendapatkan harga MQM9790-NS2F

vs. trade-off kinerja saat merencanakan penambahan kapasitas — seringkali, meningkatkan spine memberikan ROI yang lebih baik daripada menambahkan lebih banyak leaf.Bagi organisasi yang mengevaluasi MQM9790-NS2F untuk dijual

, pastikan tumpukan perangkat lunak Anda (misalnya, NCCL, OpenMPI) mendukung fitur NDR seperti SHARPv3 dan reduksi berbasis perangkat keras.

6. Ringkasan & Penilaian NilaiSolusi switch InfiniBand MQM9790-NS2F memberikan jalur yang jelas untuk membangun fabric latensi rendah dan bandwidth tinggi untuk klaster RDMA/HPC/AI yang menuntut. Kepadatan 400Gb/s 64-port, switching di bawah mikrodetik, dan kemampuan komputasi dalam jaringan secara langsung mengatasi tantangan skalabilitas dan kinerja beban kerja modern. Dengan mengadopsi arsitektur yang diuraikan di atas — topologi Fat-Tree, switch inti NDR, dan operasi native RDMA — organisasi dapat mencapai penskalaan GPU linier, mengurangi waktu penyelesaian pekerjaan lebih dari 30%, dan menyederhanakan manajemen fabric. Untuk perencanaan terperinci, lihat datasheet MQM9790-NS2F resmi dan panduan kompatibilitas. Untuk mendiskusikan desain yang disesuaikan atau mendapatkan harga MQM9790-NS2F