
NVIDIA ha presentato il suo chip AI all’avanguardia, il Blackwell Ultra GB300, che vanta un notevole miglioramento delle prestazioni del 50% rispetto al suo predecessore, il GB200, e ben 288 GB di memoria.
Presentazione del Blackwell Ultra “GB300” di NVIDIA: un chip AI rivoluzionario
Di recente, NVIDIA ha pubblicato un articolo dettagliato che illustra le specifiche e le capacità del Blackwell Ultra GB300. Questo chip all’avanguardia è ora in produzione di massa e viene fornito a clienti selezionati. Il Blackwell Ultra rappresenta un significativo miglioramento in termini di prestazioni e funzionalità rispetto ai precedenti modelli Blackwell.

Seguendo i parallelismi con la serie Super di NVIDIA, che ha migliorato le schede gaming RTX originali, la serie Ultra potenzia le precedenti offerte di chip AI. Mentre linee precedenti come Hopper e Volta non includevano funzionalità Ultra, i loro progressi hanno gettato le basi per le innovazioni attuali. Inoltre, miglioramenti sostanziali sono disponibili anche per i modelli non Ultra grazie ad aggiornamenti software e attività di ottimizzazione.

Blackwell Ultra GB300 è un’iterazione avanzata che combina due die delle dimensioni di un reticolo collegati tramite l’interfaccia NV-HBI ad alta larghezza di banda di NVIDIA, operando come una GPU unificata. Basato sulla tecnologia di processo 4NP di TSMC (una versione ottimizzata del suo nodo a 5 nm), il chip ospita ben 208 miliardi di transistor e offre prestazioni straordinarie con una larghezza di banda di 10 TB/s tra i due die.

La GPU è dotata di 160 multiprocessori streaming (SM), con un totale di 128 core CUDA ciascuno. Include quattro core Tensor di quinta generazione, che supportano il calcolo di precisione FP8, FP6 e NVFP4. Questa progettazione porta a un totale combinato di 20.480 core CUDA e 640 core Tensor, oltre a 40 MB di memoria Tensor (TMEM).
Caratteristica | Tramoggia | Blackwell | Blackwell Ultra |
---|---|---|---|
Processo di fabbricazione | TSMC 4N | TSMC 4NP | TSMC 4NP |
Transistor | 80B | 208B | 208B |
Matrici per GPU | 1 | 2 | 2 |
NVFP4 prestazioni dense | sparse | – | 10 | 20 PetaFLOPS | 15 | 20 PetaFLOPS |
Prestazioni FP8 dense | sparse | 2 | 4 PetaFLOPS | 5 | 10 PetaFLOPS | 5 | 10 PetaFLOPS |
Accelerazione dell’attenzione (SFU EX2) | 4, 5 TeraEsponenziali/s | 5 TeraEsponenziali/s | 10, 7 TeraEsponenziali/s |
Capacità massima HBM | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | 288 GB HBM3E |
Larghezza di banda massima HBM | 3, 35 TB/s (H100) 4, 8 TB/s (H200) | 8 TB/s | 8 TB/s |
Larghezza di banda NVLink | 900 GB/s | 1.800 GB/s | 1.800 GB/s |
Potenza massima (TGP) | Fino a 700W | Fino a 1.200 W | Fino a 1.400 W |
Le innovazioni nei Tensor Core di quinta generazione sono fondamentali per i calcoli di intelligenza artificiale. NVIDIA ha costantemente migliorato questi core, ottenendo:
- NVIDIA Volta: introdotte unità MMA a 8 thread e supporto per i calcoli FP16.
- NVIDIA Ampere: potenziato con MMA warp-wide completo, BF16 e TensorFloat-32.
- NVIDIA Hopper: introdotto Warp-group MMA su 128 thread e Transformer Engine con supporto FP8.
- NVIDIA Blackwell: in primo piano il Transformer Engine di seconda generazione con capacità di elaborazione FP8 e FP6 migliorate.

Il chip Blackwell Ultra aumenta significativamente la capacità di memoria, passando da un massimo di 192 GB nei modelli Blackwell GB200 a ben 288 GB di HBM3e. Questo balzo in avanti consente il supporto di modelli di intelligenza artificiale con parametri multimiliardari. La sua architettura di memoria comprende otto stack con un controller a 512 bit che opera a 8 TB/s, consentendo:
- Adattamento completo del modello: capacità di gestire oltre 300 miliardi di modelli di parametri senza scaricare memoria.
- Lunghezze di contesto estese: capacità di cache KV migliorata per applicazioni di trasformatori.
- Efficienza computazionale migliorata: rapporti elaborazione-memoria elevati per vari carichi di lavoro.

L’architettura Blackwell è dotata di interconnessioni robuste, tra cui NVLINK, NVLINK-C2C e un’interfaccia PCIe Gen6 x16, offrendo le seguenti specifiche:
- Larghezza di banda per GPU: 1, 8 TB/s bidirezionale (18 collegamenti x 100 GB/s).
- Miglioramento delle prestazioni: 2 volte superiore rispetto a NVLink 4 (rispetto a Hopper).
- Topologia massima: supporta fino a 576 GPU in un’infrastruttura di elaborazione non bloccante.
- Integrazione su scala rack: consente configurazioni di 72 GPU con larghezza di banda aggregata di 130 TB/s.
- Interfaccia PCIe: Gen6 con 16 corsie che forniscono una velocità di trasmissione bidirezionale di 256 GB/s.
- NVLink-C2C: facilita la comunicazione tra CPU e GPU con coerenza di memoria a 900 GB/s.
Interconnessione | GPU Hopper | GPU Blackwell | GPU Blackwell Ultra |
---|---|---|---|
NVLink (GPU-GPU) | 900 | 1.800 | 1.800 |
NVLink-C2C (CPU-GPU) | 900 | 900 | 900 |
Interfaccia PCIe | 128 (Genesi 5) | 256 (Genesi 6) | 256 (Genesi 6) |
Blackwell Ultra GB300 di NVIDIA raggiunge un notevole aumento del 50% nell’output di Dense Low Precision Compute grazie all’adozione del nuovo standard NVFP4, offrendo una precisione prossima a FP8 con discrepanze minime (inferiori all’1%).Questo progresso riduce anche i requisiti di memoria fino a 1, 8 volte rispetto a FP8 e 3, 5 volte rispetto a FP16.

Blackwell Ultra integra inoltre una sofisticata gestione della pianificazione insieme a funzionalità di sicurezza di livello aziendale, tra cui:
- Motore GigaThread migliorato: uno scheduler avanzato che ottimizza la distribuzione del carico di lavoro, migliorando le prestazioni di cambio di contesto su tutti i 160 SM.
- GPU multi-istanza (MIG): possibilità di partizionare le GPU in varie istanze MIG, consentendo allocazioni di memoria personalizzate per un multi-tenancy sicuro.
- Confidential Computing: disposizioni per la gestione sicura di modelli di intelligenza artificiale sensibili, sfruttando il Trusted Execution Environment (TEE) basato su hardware e operazioni NVLink sicure senza perdite significative di prestazioni.
- Advanced NVIDIA Remote Attestation Service (RAS): un sistema di monitoraggio basato sull’intelligenza artificiale che migliora l’affidabilità prevedendo i guasti e ottimizzando la manutenzione.
L’efficienza delle prestazioni migliora significativamente con il Blackwell Ultra GB300, offrendo un rapporto TPS/MW superiore rispetto al GB200, come illustrato nei grafici seguenti:




In sintesi, NVIDIA continua a essere leader nella tecnologia AI, come dimostrano le architetture Blackwell e Blackwell Ultra. Il suo impegno nel migliorare il supporto software e le ottimizzazioni garantisce un solido vantaggio competitivo, supportato da una ricerca e sviluppo continui che promette di mantenerla all’avanguardia del settore per gli anni a venire.
Lascia un commento