NVIDIA svela approfondimenti tecnici sui rack Blackwell GB200 e GB300 NVL, sui vassoi e sulle iniziative di Open Compute di MGX

NVIDIA svela approfondimenti tecnici sui rack Blackwell GB200 e GB300 NVL, sui vassoi e sulle iniziative di Open Compute di MGX

NVIDIA ha recentemente condotto un’analisi approfondita dei suoi sistemi Blackwell GB200 e GB300, concentrandosi sui loro design architettonici, rack, tray e integrazione con l’Open Compute Project (OCP).

NVIDIA presenta le architetture Blackwell e i contributi Open Compute a Hot Chips 2025

All’evento Hot Chips 2025, NVIDIA ha ampliato la sua visione di soluzioni di elaborazione avanzate con l’introduzione della piattaforma Blackwell Ultra, a seguito del successo del lancio dei suoi primi server Blackwell lo scorso anno. L’ingegnere meccanico John Norton ha condotto una presentazione completa esaminando i sistemi GB200 e GB300 nell’ambito dell’impegno di NVIDIA verso standard di elaborazione aperti.

La presentazione è iniziata con una panoramica dettagliata dell’architettura MGX, che NVIDIA ha contribuito all’OCP l’anno precedente. Norton ha discusso i vari ostacoli incontrati durante lo sviluppo dei modelli GB200 e GB300, evidenziando la versatilità necessaria per una gamma di applicazioni che vanno oltre l’intelligenza artificiale e l’inferenza.

Caso di studio NVIDIA GB200/300 di John Norton, ingegnere meccanico. Presentazione Hot Chips 2025.

L’architettura MGX è stata progettata specificamente per affrontare le complessità legate alla scalabilità degli acceleratori per carichi di lavoro diversificati a livello globale. Le esigenze dei clienti erano molteplici, spaziando da requisiti di rete specifici a combinazioni personalizzate di CPU e GPU. Di conseguenza, NVIDIA ha implementato un approccio iterativo allo sviluppo del sistema, riconoscendo che piccole modifiche potevano avere implicazioni significative a livello globale. Questa consapevolezza ha portato alla definizione dell’architettura modulare MGX.

Segmentando il sistema in componenti più piccoli e interoperabili, NVIDIA consente ai clienti di modificare singoli elementi senza dover riprogettare l’intero sistema. Questo approccio innovativo non solo semplifica gli investimenti iniziali, ma promuove anche una piattaforma flessibile e aperta tramite OCP, incoraggiando le personalizzazioni orientate al cliente.

Introduzione a MGX: architettura modulare scalabile incentrata sulla GPU per soluzioni di elaborazione accelerate.

Norton ha analizzato ulteriormente due componenti critici del framework MGX: l’infrastruttura rack MGX e i vassoi di elaborazione e switch MGX, fondamentali per l’assemblaggio dei sistemi GB200 “Blackwell”.L’utilizzo di standard di progettazione aperti da parte di NVIDIA garantisce trasparenza e accessibilità. Forniscono modelli e specifiche complete, scaricabili tramite OCP.

Specifiche del rack e del vassoio di elaborazione MGX con design modulare per contributi OCP.

Durante la presentazione, NVIDIA ha condiviso le specifiche di alto livello delle piattaforme GB200 e GB300. Il design del rack include switch nella parte superiore, seguiti da un alimentatore che converte la corrente alternata ad alta tensione proveniente dal data center in corrente continua per la distribuzione in tutto il sistema.

Disposizione del rack del sistema GB200/300 con spine NVLINK e alimentatori.

La configurazione GB200 integra 300 chip distribuiti su 10 vassoi di elaborazione, integrati da nove vassoi di commutazione e altri otto vassoi di elaborazione. Incredibilmente, ogni vassoio di elaborazione può erogare 80 Petaflop FP4, contribuendo a una prestazione complessiva di 1, 4 Exaflop. Il consumo energetico dell’intero sistema è di circa 120 kilowatt, con ogni vassoio di elaborazione che ne utilizza circa 7, interconnesso tramite la dorsale NVLink.

Diagramma generale del rack GB200/300, che illustra dimensioni e caratteristiche per l'implementazione aziendale.

NVLink funziona a ben 200 Gb/s per corsia, facilitando comunicazioni a bassa latenza tra vassoi GPU e vassoi switch. Questa interconnessione in rame sottolinea i vantaggi delle proprietà del rame per il trasferimento dati a banda larga.

Schema del sistema NVLINK Spine e Liquid Cooling per una maggiore efficienza del data center.

NVIDIA ha anche presentato il suo approccio alle specifiche dei rack. Implementando i dispositivi su un passo di 48 millimetri, leggermente più stretto del tradizionale passo di 44, 5 millimetri utilizzato per l’hardware aziendale standard, l’azienda massimizza la densità dei nodi nei suoi rack, generando numerosi vantaggi operativi.

Diagramma dei vantaggi di 19 RU per un'elaborazione efficiente e una densità di cablaggio nei data center.

È stato inoltre preso in considerazione un progetto di barra collettrice migliorato, in grado di gestire circa 35 kilowatt, ampliato per supportare fino a 1.400 ampere tramite una sezione trasversale in rame migliorata, facilitando maggiori requisiti di potenza.

Diagramma della topologia PCIe del vassoio di elaborazione NVIDIA GB200/300 NVL per la connessione 2P:4GPU.

Ogni unità di elaborazione integra due CPU e quattro GPU, incorporando un modulo Host-Processor (HPM) che supporta una CPU Grace e due GPU Blackwell. Il design innovativo consente opzioni di connettività flessibili, garantendo un’integrazione perfetta dei sistemi I/O.

Schema dei vassoi di elaborazione accelerata MGX con componenti etichettati.

I vassoi sono inoltre dotati di configurazioni personalizzabili per diverse soluzioni di raffreddamento e opzioni di gestione dei cavi, sottolineando la modularità della piattaforma per applicazioni mirate.

Diagramma del vassoio di commutazione dei vassoi di elaborazione accelerata MGX con evidenziazione dettagliata dei componenti.

La parte posteriore del vassoio di elaborazione è dotata di Universal Quick Disconnects (UQD), standardizzati da OCP e che supportano il raffreddamento a liquido completo per una maggiore efficienza.

Evoluzione dell'architettura del data center con NVLINK Fusion e tecnologia di raffreddamento avanzata.

In conclusione, NVIDIA ha confermato che entrambi i sistemi GB200 e GB300 sono ora in piena produzione, distribuiti in vari data center hyperscale in tutto il mondo. L’azienda continua a innovare ogni anno, migliorando la densità, l’efficienza energetica e le soluzioni di raffreddamento, con iniziative come NVLink Fusion che promettono progressi significativi nelle capacità di elaborazione dei dati.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *