Aggiornamento Ultra di Microsoft Azure con GPU NVIDIA GB300 “Blackwell Ultra”: 4600 GPU che alimentano modelli di intelligenza artificiale con oltre un trilione di parametri

Aggiornamento Ultra di Microsoft Azure con GPU NVIDIA GB300 “Blackwell Ultra”: 4600 GPU che alimentano modelli di intelligenza artificiale con oltre un trilione di parametri

Microsoft ha fatto un annuncio significativo riguardo alla sua piattaforma Azure, svelando il suo primo cluster di produzione su larga scala che integra le GPU GB300 “Blackwell Ultra” all’avanguardia di NVIDIA. Questa innovazione è specificamente progettata per gestire modelli di intelligenza artificiale di grandi dimensioni.

NVIDIA GB300 “Blackwell Ultra”: potenziamento della formazione AI nella piattaforma Azure di Microsoft

Il framework Azure è stato aggiornato per includere Blackwell Ultra, con una solida distribuzione di oltre 4.600 GPU basate sull’avanzata architettura GB300 NVL72 di NVIDIA. Questa configurazione utilizza la tecnologia di interconnessione InfiniBand all’avanguardia, potenziando significativamente la capacità di Microsoft di distribuire centinaia di migliaia di GPU Blackwell Ultra nei suoi data center globali, tutti dedicati ai carichi di lavoro di intelligenza artificiale.

Secondo Microsoft, l’implementazione del cluster Azure dotato di GPU NVIDIA GB300 NVL72 “Blackwell Ultra” può ridurre drasticamente i tempi di addestramento dei modelli da diversi mesi a poche settimane. Questo progresso consente l’addestramento di modelli composti da centinaia di migliaia di miliardi di parametri. NVIDIA ha inoltre dimostrato prestazioni leader nelle metriche di inferenza, come dimostrato da numerosi benchmark MLPerf e dai recenti test di intelligenza artificiale InferenceMAX.

Le macchine virtuali (VM) Azure ND GB300 v6 appena lanciate sono ottimizzate per una varietà di applicazioni avanzate, tra cui modelli di ragionamento, sistemi di intelligenza artificiale agentica e attività di intelligenza artificiale generativa multimodale. Ogni rack di questa infrastruttura può ospitare 18 VM, ciascuna dotata di 72 GPU. Le seguenti specifiche evidenziano le capacità prestazionali:

  • 72 GPU NVIDIA Blackwell Ultra abbinate a 36 CPU NVIDIA Grace.
  • Larghezza di banda scalabile cross-rack da 800 gigabit al secondo (Gbps) tramite l’innovativa tecnologia NVIDIA Quantum-X800 InfiniBand.
  • 130 terabyte (TB) al secondo di larghezza di banda NVIDIA NVLink per rack.
  • 37 TB di memoria ad alta velocità.
  • Fino a 1.440 petaflop (PFLOPS) di prestazioni FP4 Tensor Core.
Microsoft Azure ottiene un aggiornamento Ultra con GB300 di NVIDIA

A livello di rack, NVLink e NVSwitch migliorano l’allocazione della memoria e la larghezza di banda, consentendo un incredibile trasferimento dati intra-rack di 130 TB al secondo, connettendo al contempo 37 TB di memoria veloce. Questa innovazione architetturale trasforma ogni rack in un’unità integrata, offrendo una maggiore capacità di inferenza e una minore latenza per modelli più grandi e finestre di contesto estese. Questo miglioramento supporta sistemi di intelligenza artificiale agentici e multimodali, rendendoli più agili e scalabili che mai.

Per estendere le capacità oltre i singoli rack, Azure impiega un’architettura di rete fat-tree ad alte prestazioni supportata da NVIDIA Quantum-X800 Gbps InfiniBand. Questa progettazione garantisce un’efficiente scalabilità per il training di modelli di grandi dimensioni su decine di migliaia di GPU, riducendo al minimo il sovraccarico di comunicazione. La riduzione del sovraccarico di sincronizzazione consente inoltre un utilizzo ottimale delle GPU, consentendo cicli di ricerca accelerati ed efficienze sui costi nonostante le elevate esigenze di calcolo associate al training dell’IA. Lo stack appositamente progettato di Azure, che include protocolli personalizzati e funzionalità di elaborazione in rete, garantisce elevata affidabilità ed efficace utilizzo delle risorse. Tecnologie come NVIDIA SHARP migliorano la velocità operativa collettiva e raddoppiano la larghezza di banda effettiva attraverso calcoli on-switch, facilitando così un training e un’inferenza su larga scala più efficienti.

Inoltre, le innovative tecniche di raffreddamento di Azure integrano unità di scambio termico autonome e sistemi avanzati di raffreddamento degli impianti, volti a ridurre il consumo di acqua e a garantire al contempo la stabilità termica all’interno di cluster densi e ad alte prestazioni come il GB300 NVL72. Lo sviluppo e l’adattamento continui dei modelli di distribuzione dell’alimentazione supportano anche gli elevati requisiti energetici e le esigenze di bilanciamento dinamico del carico inerenti alla classe di VM ND GB300 v6 dei cluster GPU.

tramite Microsoft

Come sottolineato da NVIDIA, questa collaborazione tra Microsoft Azure e NVIDIA segna un momento cruciale per la leadership degli Stati Uniti nel settore dell’intelligenza artificiale. I clienti possono ora accedere e sfruttare queste rivoluzionarie VM di Azure per i loro progetti.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *