
NVIDIA ha recentemente condotto un’analisi approfondita dei suoi sistemi Blackwell GB200 e GB300, concentrandosi sui loro design architettonici, rack, tray e integrazione con l’Open Compute Project (OCP).
NVIDIA presenta le architetture Blackwell e i contributi Open Compute a Hot Chips 2025
All’evento Hot Chips 2025, NVIDIA ha ampliato la sua visione di soluzioni di elaborazione avanzate con l’introduzione della piattaforma Blackwell Ultra, a seguito del successo del lancio dei suoi primi server Blackwell lo scorso anno. L’ingegnere meccanico John Norton ha condotto una presentazione completa esaminando i sistemi GB200 e GB300 nell’ambito dell’impegno di NVIDIA verso standard di elaborazione aperti.
La presentazione è iniziata con una panoramica dettagliata dell’architettura MGX, che NVIDIA ha contribuito all’OCP l’anno precedente. Norton ha discusso i vari ostacoli incontrati durante lo sviluppo dei modelli GB200 e GB300, evidenziando la versatilità necessaria per una gamma di applicazioni che vanno oltre l’intelligenza artificiale e l’inferenza.

L’architettura MGX è stata progettata specificamente per affrontare le complessità legate alla scalabilità degli acceleratori per carichi di lavoro diversificati a livello globale. Le esigenze dei clienti erano molteplici, spaziando da requisiti di rete specifici a combinazioni personalizzate di CPU e GPU. Di conseguenza, NVIDIA ha implementato un approccio iterativo allo sviluppo del sistema, riconoscendo che piccole modifiche potevano avere implicazioni significative a livello globale. Questa consapevolezza ha portato alla definizione dell’architettura modulare MGX.
Segmentando il sistema in componenti più piccoli e interoperabili, NVIDIA consente ai clienti di modificare singoli elementi senza dover riprogettare l’intero sistema. Questo approccio innovativo non solo semplifica gli investimenti iniziali, ma promuove anche una piattaforma flessibile e aperta tramite OCP, incoraggiando le personalizzazioni orientate al cliente.

Norton ha analizzato ulteriormente due componenti critici del framework MGX: l’infrastruttura rack MGX e i vassoi di elaborazione e switch MGX, fondamentali per l’assemblaggio dei sistemi GB200 “Blackwell”.L’utilizzo di standard di progettazione aperti da parte di NVIDIA garantisce trasparenza e accessibilità. Forniscono modelli e specifiche complete, scaricabili tramite OCP.

Durante la presentazione, NVIDIA ha condiviso le specifiche di alto livello delle piattaforme GB200 e GB300. Il design del rack include switch nella parte superiore, seguiti da un alimentatore che converte la corrente alternata ad alta tensione proveniente dal data center in corrente continua per la distribuzione in tutto il sistema.

La configurazione GB200 integra 300 chip distribuiti su 10 vassoi di elaborazione, integrati da nove vassoi di commutazione e altri otto vassoi di elaborazione. Incredibilmente, ogni vassoio di elaborazione può erogare 80 Petaflop FP4, contribuendo a una prestazione complessiva di 1, 4 Exaflop. Il consumo energetico dell’intero sistema è di circa 120 kilowatt, con ogni vassoio di elaborazione che ne utilizza circa 7, interconnesso tramite la dorsale NVLink.

NVLink funziona a ben 200 Gb/s per corsia, facilitando comunicazioni a bassa latenza tra vassoi GPU e vassoi switch. Questa interconnessione in rame sottolinea i vantaggi delle proprietà del rame per il trasferimento dati a banda larga.

NVIDIA ha anche presentato il suo approccio alle specifiche dei rack. Implementando i dispositivi su un passo di 48 millimetri, leggermente più stretto del tradizionale passo di 44, 5 millimetri utilizzato per l’hardware aziendale standard, l’azienda massimizza la densità dei nodi nei suoi rack, generando numerosi vantaggi operativi.

È stato inoltre preso in considerazione un progetto di barra collettrice migliorato, in grado di gestire circa 35 kilowatt, ampliato per supportare fino a 1.400 ampere tramite una sezione trasversale in rame migliorata, facilitando maggiori requisiti di potenza.

Ogni unità di elaborazione integra due CPU e quattro GPU, incorporando un modulo Host-Processor (HPM) che supporta una CPU Grace e due GPU Blackwell. Il design innovativo consente opzioni di connettività flessibili, garantendo un’integrazione perfetta dei sistemi I/O.

I vassoi sono inoltre dotati di configurazioni personalizzabili per diverse soluzioni di raffreddamento e opzioni di gestione dei cavi, sottolineando la modularità della piattaforma per applicazioni mirate.

La parte posteriore del vassoio di elaborazione è dotata di Universal Quick Disconnects (UQD), standardizzati da OCP e che supportano il raffreddamento a liquido completo per una maggiore efficienza.

In conclusione, NVIDIA ha confermato che entrambi i sistemi GB200 e GB300 sono ora in piena produzione, distribuiti in vari data center hyperscale in tutto il mondo. L’azienda continua a innovare ogni anno, migliorando la densità, l’efficienza energetica e le soluzioni di raffreddamento, con iniziative come NVLink Fusion che promettono progressi significativi nelle capacità di elaborazione dei dati.
Lascia un commento