GPU NVIDIA Blackwell Ultra “GB300”: svelato il chip AI più veloce con doppio reticolo, oltre 20.000 core, 288 GB di memoria HBM3e a 8 TB/s, 50% più veloce di GB200

NVIDIA ha presentato il suo chip AI all’avanguardia, il Blackwell Ultra GB300, che vanta un notevole miglioramento delle prestazioni del 50% rispetto al suo predecessore, il GB200, e ben 288 GB di memoria.

Presentazione del Blackwell Ultra “GB300” di NVIDIA: un chip AI rivoluzionario

Di recente, NVIDIA ha pubblicato un articolo dettagliato che illustra le specifiche e le capacità del Blackwell Ultra GB300. Questo chip all’avanguardia è ora in produzione di massa e viene fornito a clienti selezionati. Il Blackwell Ultra rappresenta un significativo miglioramento in termini di prestazioni e funzionalità rispetto ai precedenti modelli Blackwell.

Seguendo i parallelismi con la serie Super di NVIDIA, che ha migliorato le schede gaming RTX originali, la serie Ultra potenzia le precedenti offerte di chip AI. Mentre linee precedenti come Hopper e Volta non includevano funzionalità Ultra, i loro progressi hanno gettato le basi per le innovazioni attuali. Inoltre, miglioramenti sostanziali sono disponibili anche per i modelli non Ultra grazie ad aggiornamenti software e attività di ottimizzazione.

Diagramma della GPU NVIDIA Blackwell Ultra che mostra le specifiche dettagliate di architettura e connettività.

Blackwell Ultra GB300 è un’iterazione avanzata che combina due die delle dimensioni di un reticolo collegati tramite l’interfaccia NV-HBI ad alta larghezza di banda di NVIDIA, operando come una GPU unificata. Basato sulla tecnologia di processo 4NP di TSMC (una versione ottimizzata del suo nodo a 5 nm), il chip ospita ben 208 miliardi di transistor e offre prestazioni straordinarie con una larghezza di banda di 10 TB/s tra i due die.

Diagramma dell'architettura NVIDIA Streaming Multiprocessor con CUDA e tensor core.

La GPU è dotata di 160 multiprocessori streaming (SM), con un totale di 128 core CUDA ciascuno. Include quattro core Tensor di quinta generazione, che supportano il calcolo di precisione FP8, FP6 e NVFP4. Questa progettazione porta a un totale combinato di 20.480 core CUDA e 640 core Tensor, oltre a 40 MB di memoria Tensor (TMEM).

Caratteristica	Tramoggia	Blackwell	Blackwell Ultra
Processo di fabbricazione	TSMC 4N	TSMC 4NP	TSMC 4NP
Transistor	80B	208B	208B
Matrici per GPU	1	2	2
NVFP4 prestazioni dense \| sparse	–	10 \| 20 PetaFLOPS	15 \| 20 PetaFLOPS
Prestazioni FP8 dense \| sparse	2 \| 4 PetaFLOPS	5 \| 10 PetaFLOPS	5 \| 10 PetaFLOPS
Accelerazione dell’attenzione (SFU EX2)	4, 5 TeraEsponenziali/s	5 TeraEsponenziali/s	10, 7 TeraEsponenziali/s
Capacità massima HBM	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
Larghezza di banda massima HBM	3, 35 TB/s (H100) 4, 8 TB/s (H200)	8 TB/s	8 TB/s
Larghezza di banda NVLink	900 GB/s	1.800 GB/s	1.800 GB/s
Potenza massima (TGP)	Fino a 700W	Fino a 1.200 W	Fino a 1.400 W

Le innovazioni nei Tensor Core di quinta generazione sono fondamentali per i calcoli di intelligenza artificiale. NVIDIA ha costantemente migliorato questi core, ottenendo:

NVIDIA Volta: introdotte unità MMA a 8 thread e supporto per i calcoli FP16.
NVIDIA Ampere: potenziato con MMA warp-wide completo, BF16 e TensorFloat-32.
NVIDIA Hopper: introdotto Warp-group MMA su 128 thread e Transformer Engine con supporto FP8.
NVIDIA Blackwell: in primo piano il Transformer Engine di seconda generazione con capacità di elaborazione FP8 e FP6 migliorate.

Confronto della memoria GPU: Hopper H100 80 GB, Hopper H200 141 GB, Blackwell 192 GB, Blackwell Ultra 288 GB.

Il chip Blackwell Ultra aumenta significativamente la capacità di memoria, passando da un massimo di 192 GB nei modelli Blackwell GB200 a ben 288 GB di HBM3e. Questo balzo in avanti consente il supporto di modelli di intelligenza artificiale con parametri multimiliardari. La sua architettura di memoria comprende otto stack con un controller a 512 bit che opera a 8 TB/s, consentendo:

Adattamento completo del modello: capacità di gestire oltre 300 miliardi di modelli di parametri senza scaricare memoria.
Lunghezze di contesto estese: capacità di cache KV migliorata per applicazioni di trasformatori.
Efficienza computazionale migliorata: rapporti elaborazione-memoria elevati per vari carichi di lavoro.

Grafico a barre che confronta i livelli di prestazioni delle GPU Dense FP8 e NVFP4.

L’architettura Blackwell è dotata di interconnessioni robuste, tra cui NVLINK, NVLINK-C2C e un’interfaccia PCIe Gen6 x16, offrendo le seguenti specifiche:

Larghezza di banda per GPU: 1, 8 TB/s bidirezionale (18 collegamenti x 100 GB/s).
Miglioramento delle prestazioni: 2 volte superiore rispetto a NVLink 4 (rispetto a Hopper).
Topologia massima: supporta fino a 576 GPU in un’infrastruttura di elaborazione non bloccante.
Integrazione su scala rack: consente configurazioni di 72 GPU con larghezza di banda aggregata di 130 TB/s.

Interfaccia PCIe: Gen6 con 16 corsie che forniscono una velocità di trasmissione bidirezionale di 256 GB/s.
NVLink-C2C: facilita la comunicazione tra CPU e GPU con coerenza di memoria a 900 GB/s.

Interconnessione	GPU Hopper	GPU Blackwell	GPU Blackwell Ultra
NVLink (GPU-GPU)	900	1.800	1.800
NVLink-C2C (CPU-GPU)	900	900	900
Interfaccia PCIe	128 (Genesi 5)	256 (Genesi 6)	256 (Genesi 6)

Blackwell Ultra GB300 di NVIDIA raggiunge un notevole aumento del 50% nell’output di Dense Low Precision Compute grazie all’adozione del nuovo standard NVFP4, offrendo una precisione prossima a FP8 con discrepanze minime (inferiori all’1%).Questo progresso riduce anche i requisiti di memoria fino a 1, 8 volte rispetto a FP8 e 3, 5 volte rispetto a FP16.

Diagramma del meccanismo di attenzione della cache Blackwell KV con indicatori MatMul, Softmax e speedup in batch.

Blackwell Ultra integra inoltre una sofisticata gestione della pianificazione insieme a funzionalità di sicurezza di livello aziendale, tra cui:

Motore GigaThread migliorato: uno scheduler avanzato che ottimizza la distribuzione del carico di lavoro, migliorando le prestazioni di cambio di contesto su tutti i 160 SM.
GPU multi-istanza (MIG): possibilità di partizionare le GPU in varie istanze MIG, consentendo allocazioni di memoria personalizzate per un multi-tenancy sicuro.
Confidential Computing: disposizioni per la gestione sicura di modelli di intelligenza artificiale sensibili, sfruttando il Trusted Execution Environment (TEE) basato su hardware e operazioni NVLink sicure senza perdite significative di prestazioni.
Advanced NVIDIA Remote Attestation Service (RAS): un sistema di monitoraggio basato sull’intelligenza artificiale che migliora l’affidabilità prevedendo i guasti e ottimizzando la manutenzione.

L’efficienza delle prestazioni migliora significativamente con il Blackwell Ultra GB300, offrendo un rapporto TPS/MW superiore rispetto al GB200, come illustrato nei grafici seguenti:

Grafico dell'impatto dell'architettura sulle prestazioni di inferenza e simulazione dell'esperienza utente con frontiera di Pareto.

Grafico sull'impatto dell'architettura dell'intelligenza artificiale sulle prestazioni di inferenza e sull'esperienza utente presso Pareto Frontier.

In sintesi, NVIDIA continua a essere leader nella tecnologia AI, come dimostrano le architetture Blackwell e Blackwell Ultra. Il suo impegno nel migliorare il supporto software e le ottimizzazioni garantisce un solido vantaggio competitivo, supportato da una ricerca e sviluppo continui che promette di mantenerla all’avanguardia del settore per gli anni a venire.

Fonte e immagini