
Microsoft a fait une annonce importante concernant sa plateforme Azure, dévoilant son premier cluster de production à grande échelle intégrant les GPU de pointe GB300 « Blackwell Ultra » de NVIDIA. Cette avancée est spécialement conçue pour gérer des modèles d’IA extrêmement volumineux.
NVIDIA GB300 « Blackwell Ultra » : Optimisation de la formation à l’IA sur la plateforme Azure de Microsoft
L’infrastructure Azure a été mise à niveau pour inclure Blackwell Ultra, qui offre un déploiement robuste de plus de 4 600 GPU basés sur l’architecture avancée GB300 NVL72 de NVIDIA. Cette configuration utilise la technologie d’interconnexion InfiniBand de pointe, ce qui renforce considérablement la capacité de Microsoft à déployer des centaines de milliers de GPU Blackwell Ultra dans ses centres de données mondiaux, tous dédiés aux charges de travail d’IA.
Le premier cluster de supercalcul à grande échelle @nvidia GB300 NVL72 au monde pour les charges de travail d’IA est désormais opérationnel sur Microsoft Azure. Ce déploiement connecte plus de 4 600 GPU NVIDIA Blackwell Ultra grâce au réseau InfiniBand de nouvelle génération, conçu pour entraîner et déployer des modèles d’IA avancés plus rapidement que… pic.twitter.com/CmmDtcrlwn
— Microsoft Azure (@Azure) 9 octobre 2025
Selon Microsoft, le déploiement du cluster Azure équipé de GPU NVIDIA GB300 NVL72 « Blackwell Ultra » permet de réduire considérablement les temps d’apprentissage des modèles, de plusieurs mois à quelques semaines seulement. Cette avancée permet d’entraîner des modèles composés de centaines de milliers de milliards de paramètres. NVIDIA a également démontré des performances de pointe en matière de mesures d’inférence, comme en témoignent de nombreux benchmarks MLPerf et les récents tests d’IA InferenceMAX.
Les nouvelles machines virtuelles Azure ND GB300 v6 sont optimisées pour diverses applications avancées, notamment les modèles de raisonnement, les systèmes d’IA agentique et les tâches d’IA générative multimodale. Chaque rack de cette infrastructure accueille 18 machines virtuelles, chacune équipée de 72 GPU. Les spécifications suivantes illustrent les performances :
- 72 GPU NVIDIA Blackwell Ultra associés à 36 CPU NVIDIA Grace.
- Bande passante évolutive inter-rack de 800 gigabits par seconde (Gbps) via la technologie de pointe NVIDIA Quantum-X800 InfiniBand.
- 130 téraoctets (To) par seconde de bande passante NVIDIA NVLink par rack.
- 37 To de mémoire haute vitesse.
- Jusqu’à 1 440 pétaflops (PFLOPS) de performances du FP4 Tensor Core.

Au niveau du rack, NVLink et NVSwitch optimisent l’allocation mémoire et la bande passante, permettant un transfert de données intra-rack exceptionnel de 130 To par seconde tout en connectant 37 To de mémoire rapide. Cette innovation architecturale transforme chaque rack en une unité intégrée, offrant un débit d’inférence accru et une latence réduite pour les modèles plus volumineux et les fenêtres contextuelles étendues. Cette amélioration prend en charge les systèmes d’IA agentiques et multimodaux, les rendant plus agiles et évolutifs que jamais.
Pour étendre les capacités au-delà des racks individuels, Azure utilise une architecture réseau Fat-Tree hautes performances, optimisée par NVIDIA Quantum-X800 Gbit/s InfiniBand. Cette conception garantit une mise à l’échelle efficace pour l’entraînement de modèles ultra-larges jusqu’à des dizaines de milliers de GPU, tout en minimisant la charge de communication. La réduction de la charge de synchronisation permet une utilisation optimale des GPU, ce qui accélère les cycles de recherche et optimise les coûts malgré les exigences de calcul intensives liées à l’entraînement de l’IA. La pile Azure spécialement conçue, qui inclut des protocoles personnalisés et des capacités de calcul en réseau, garantit une fiabilité élevée et une utilisation efficace des ressources. Des technologies comme NVIDIA SHARP améliorent les vitesses de fonctionnement collectives et doublent la bande passante effective grâce aux calculs sur commutateur, facilitant ainsi un entraînement et une inférence à grande échelle plus efficaces.
De plus, les techniques de refroidissement innovantes d’Azure intègrent des unités d’échange thermique autonomes et des systèmes de refroidissement d’installation avancés, visant à réduire la consommation d’eau tout en garantissant la stabilité thermique au sein de ces clusters denses et performants comme le GB300 NVL72. Le développement et l’adaptation continus des modèles de distribution d’énergie prennent également en charge les besoins énergétiques élevés et les exigences d’équilibrage de charge dynamique inhérents aux clusters GPU de la classe VM ND GB300 v6.
via Microsoft
Comme le souligne NVIDIA, cette collaboration entre Microsoft Azure et NVIDIA marque un tournant dans l’avance des États-Unis dans le secteur de l’IA. Les clients peuvent désormais accéder à ces machines virtuelles Azure révolutionnaires et les exploiter pour leurs projets.
Laisser un commentaire