High-Performance Computing (HPC) Solusi Jaringan: InfiniBand Memungkinkan Performa Supercomputing Terobosan
September 27, 2025
Batas-batas ilmu pengetahuan, teknik, dan kecerdasan buatan sedang didorong maju oleh komputasi berkinerja tinggi (HPC).Dari simulasi model iklim dan menemukan obat-obatan baru untuk melatih model AI generatif besar-besaran, kompleksitas dan skala beban kerja ini meningkat secara eksponensial.jaringan superkomputerinfrastruktur, yang harus secara efisien memindahkan set data yang luas antara ribuan node komputasi tanpa menjadi kemacetan.Ini adalah sistem saraf pusat dari superkomputer modern.
Arsitektur jaringan tradisional sering gagal mengikuti permintaan komputasi eksascale dan AI. Arsitek dan peneliti HPC menghadapi beberapa tantangan yang terus menerus:
- Sensitivitas latensi:Aplikasi paralel yang terpasang erat, yang menggunakan Message Passing Interface (MPI), sangat sensitif terhadap latensi.
- Perputaran yang tidak dapat diprediksi:Kesesakan jaringan dapat menyebabkan kinerja yang tidak menentu, yang menyebabkan node komputasi tidak aktif saat menunggu data, membuang-buang sumber daya komputasi yang berharga dan meningkatkan waktu penyelesaian pekerjaan.
- Operasi Kolektif yang Tidak Efisien:Operasi seperti pengurangan dan hambatan yang melibatkan beberapa node dapat mengkonsumsi sejumlah besar sumber daya CPU host, mengalihkan siklus dari tugas komputasi inti.
- Batas skalabilitas:Banyak jaringan berjuang untuk mempertahankan kinerja dan latensi yang konsisten karena ukuran cluster berskala hingga puluhan ribu node, menghambat jalur ke exascale dan seterusnya.
NVIDIAMellanox InfiniBandmenyediakan platform jaringan end-to-end yang dirancang khusus untuk mengatasi masalah ini.HPCIni lebih dari sekedar NIC; ini adalah kain holistik yang secara cerdas mempercepat pergerakan data dan perhitungan.
- In-Network Computing (NVIDIA SHARPTM):Ini adalah fitur revolusioner yang membedakan InfiniBand. Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) mengurangi beban operasi kolektif (misalnya, MPI Allreduce,Penghalang) dari CPU ke jaringan switchIni secara drastis mengurangi latensi dan membebaskan sumber daya CPU host untuk komputasi aplikasi.
- Remote Direct Memory Access (RDMA): Mellanox InfiniBandmemiliki dukungan RDMA asli, memungkinkan data untuk dipindahkan langsung dari memori satu node ke node lain tanpa melibatkan CPU.Teknik "kernel bypass" ini sangat penting untuk mencapai latensi ultra-rendah dan bandwidth tinggi.
- Adaptive Routing and Congestion Control:Kain secara dinamis mengarahkan lalu lintas di sekitar hotspot, memastikan penggunaan jaringan yang seragam dan mencegah kemacetan sebelum mempengaruhi kinerja aplikasi.Hal ini mengarah pada kinerja yang dapat diprediksi dan konsisten.
- Integrasi GPU yang mulus (GPUDirect®):Teknologi seperti GPUDirect RDMA memungkinkan data mengalir langsung antara memori GPU dari server yang berbeda di seluruh kain InfiniBand,yang penting untuk mempercepat pelatihan AI multi-GPU dan multi-node dan beban kerja komputasi ilmiah.
PengerahanMellanox InfiniBanddi pusat supercomputing terkemuka dan lembaga penelitian telah menghasilkan hasil yang dramatis dan terukur:
| Metrik | Peningkatan dengan Mellanox InfiniBand | Dampak pada beban kerja HPC |
|---|---|---|
| Kinerja Aplikasi | Sampai 2,5 kali lebih cepat | Mengurangi waktu penyelesaian untuk simulasi kompleks dan pekerjaan pelatihan AI. |
| Latensi | Sub-1 mikrodetik ujung ke ujung | Hampir menghilangkan keterlambatan komunikasi untuk aplikasi MPI. |
| Penggunaan CPU | Hingga 30% pengurangan overhead CPU | Membebaskan jutaan jam inti CPU untuk komputasi bukan komunikasi. |
| Skalabilitas | Didukung dalam cluster dengan 10.000+ node | Memberikan jalur yang terbukti untuk penyebaran komputasi exascale. |
| Penggunaan Kain | Efisiensi lebih dari 90% | Memaksimalkan laba atas investasi infrastruktur. |
Mellanox InfiniBandtelah menetapkan dirinya sebagai standar emas untukjaringan superkomputer, memberikan kinerja yang diperlukan, skalabilitas, dan kecerdasan yang dibutuhkan oleh dunia yang paling menuntutHPCDengan memecahkan kemacetan jaringan kritis melalui inovasi seperti komputasi dalam jaringan, memungkinkan peneliti dan ilmuwan untuk mencapai hasil terobosan lebih cepat.Ini bukan hanya sebuah interkoneksi; merupakan akselerator penting bagi pengetahuan dan inovasi manusia.

