La NVIDIA RTX Pro 6000 Blackwell dimostra che una singola GPU può superare le prestazioni delle tradizionali configurazioni multi-GPU, in particolare nell’esecuzione di modelli di intelligenza artificiale complessi. Sorprendentemente, ha dimostrato di superare le prestazioni di quattro RTX 5090.
Una singola GPU RTX PRO 6000 Blackwell esegue un modello di intelligenza artificiale da 230 miliardi di byte consumando un quarto dell’energia rispetto a quattro RTX 5090.
Una ricerca condotta da Steveibe su X evidenzia la fattibilità di eseguire modelli di intelligenza artificiale di grandi dimensioni in ambienti domestici. Utilizzando MiniMax M2.7, un modello di inferenza AI con 230 miliardi di parametri, i test sono stati condotti su quattro configurazioni basate su GPU NVIDIA, con una dimensione del contesto di 32k e una lunghezza massima del token di 4096.
MiniMax M2.7 ha parametri da 230B. Riesci davvero a farlo funzionare a casa? Ho testato l’UD-IQ3_XXS (80GB) di Unsloth su 4 diverse configurazioni: 🟠 4x RTX 4090 (96GB): 71, 52 tok/s, TTFT 1045ms 🟢 4x RTX 5090 (128GB): 120, 54 tok/s, TTFT 725ms 🟡 1x RTX PRO 6000 (96GB): 118, 74 tok/s, TTFT 765ms 🟣 DGX… pic.twitter.com/yK8bGg6RtX
— stevibe (@stevibe) 18 aprile 2026
Durante i test di benchmark, è stato utilizzato il metodo di quantizzazione GGUF IQ3_XXS, che si adatta a configurazioni con meno VRAM. Questa specifica quantizzazione è stata scelta perché sfruttava al massimo i 96 GB di VRAM della GPU RTX PRO 6000. Di seguito sono riportati i risultati delle prestazioni ottenuti con le diverse configurazioni:
- 4x RTX 4090 (96GB): 71, 52 token/secondo, TTFT 1045ms
- 4x RTX 5090 (128GB): 120, 54 token/secondo, TTFT 725ms
- 1x RTX PRO 6000 (96GB): 118, 74 token/secondo, TTFT 765ms
- DGX Spark (128 GB): 24, 41 token/secondo, TTFT 741 ms
La singola GPU NVIDIA RTX PRO 6000 Blackwell ha raggiunto una velocità notevole di 118, 74 token/secondo, quasi eguagliando le prestazioni di quattro RTX 5090 a 120, 54 token/secondo. La configurazione precedente con RTX 4090, composta da quattro GPU, ha fornito un output significativamente inferiore a 71, 52 token/secondo. Al contrario, il DGX Spark Mini AI PC, con 128 GB di memoria, è rimasto indietro con 24, 41 token/secondo.

Sebbene la velocità di generazione dei token favorisca le RTX PRO 6000 Blackwell e le RTX 5090, è fondamentale considerare altri fattori come il consumo energetico e il costo.
Confronto del consumo energetico
Esaminando il consumo energetico in queste configurazioni, emerge una netta distinzione:
- 4x RTX 4090: Consumo energetico massimo di 1.800 W (450 W per GPU)
- 4x RTX 5090: Consumo energetico massimo di 2.300 W (575 W per GPU)
- 1x RTX PRO 6000: Consumo energetico di picco di soli 600 W
- DGX Spark: Potenza totale del sistema di 240 W
Ciò indica che la singola RTX PRO 6000 consuma solo un quarto dell’energia della configurazione quadrupla RTX 5090 e circa un terzo dell’energia delle quattro RTX 4090. La DGX Spark, nonostante la sua minore capacità energetica, funziona in modo efficiente come soluzione di sistema completa.
Panoramica dei prezzi
Sul fronte finanziario, i costi di queste GPU parlano chiaro. La RTX PRO 6000 Blackwell ha un prezzo di circa 9.500 dollari, mentre una singola RTX 5090 costa circa 3.500 dollari, per un totale di 14.000 dollari per quattro schede. La DGX Spark è attualmente in vendita a 4.699 dollari, dopo un adeguamento di prezzo.
- Prezzo medio al dettaglio della RTX 4090: 3.000 dollari (per GPU)
- Prezzo medio al dettaglio della RTX 5090: 3.500 dollari (per GPU)
- Prezzo medio al dettaglio di una RTX PRO 6000: 9.500 dollari (per GPU)
- Prezzo medio al dettaglio del DGX Spark AI per PC: 4.699 dollari
Sebbene l’utilizzo di più GPU possa migliorare le prestazioni dei modelli di intelligenza artificiale e sfruttare una maggiore quantità di memoria, può anche introdurre un sovraccarico di sistema che influisce sull’efficienza complessiva. Al contrario, la RTX PRO 6000 Blackwell, con la sua configurazione da 96 GB, riesce a offrire prestazioni superiori, fornendo una soluzione più efficiente ed economica per i carichi di lavoro di intelligenza artificiale più impegnativi.
Lascia un commento