NVIDIA ha presentato la sua ultima soluzione di elaborazione per hyperscaler: Blackwell Ultra. I recenti benchmark del GB300 NVL72 ne rivelano le prestazioni eccezionali, in particolare nelle applicazioni a bassa latenza e con contesto esteso.
Rack Blackwell Ultra AI di NVIDIA: prestazioni agentiche migliorate grazie ai progressi di NVLink
Il panorama dell’intelligenza artificiale ha assistito a cambiamenti radicali sin dal suo boom nel 2022, con una notevole enfasi sull’agentic computing, supportato da applicazioni e framework avanzati. Per i fornitori di infrastrutture come NVIDIA, la necessità di un’elevata larghezza di banda di memoria e di prestazioni elevate è fondamentale per soddisfare i severi requisiti di latenza di questi sistemi sofisticati. La serie Blackwell Ultra affronta questa sfida in modo efficace. In una recente valutazione condivisa da NVIDIA tramite un post sul blog, Blackwell Ultra ha ottenuto risultati eccezionali nel benchmark InferenceMAX di SemiAnalysis.

NVIDIA evidenzia una metrica cruciale, denominata “token/watt”, fondamentale nello sviluppo odierno degli hyperscaler. L’attenzione rivolta sia alle prestazioni pure che al miglioramento della produttività è evidente, con la GB300 NVL72 che ha raggiunto un notevole aumento di 50 volte della produttività per megawatt rispetto alle GPU Hopper della generazione precedente. Un confronto illustrativo mostra lo “stato di implementazione” ottimale di ciascuna architettura.
Come fa NVIDIA a ottenere incrementi di throughput così sbalorditivi? La risposta risiede nella sua tecnologia NVLink all’avanguardia. Blackwell Ultra vanta una configurazione a 72 GPU che si unifica in un unico fabric NVLink, offrendo ben 130 TB/s di connettività. Al contrario, la serie Hopper utilizza un design NVLink a 8 chip che, pur essendo efficace, non si adatta all’architettura e al layout innovativi di Blackwell Ultra. Inoltre, l’introduzione del formato di precisione NVFP4 è fondamentale, consolidando il primato di GB300 in termini di throughput.

Con l’avvento dell'”intelligenza artificiale agente”, le valutazioni di NVIDIA sul GB300 NVL72 sottolineano anche i costi dei token, oltre agli aggiornamenti sopra menzionati. Team Green segnala una significativa riduzione di 35 volte del costo per milione di token, posizionando questo sistema come la scelta migliore per le attività di inferenza tra laboratori di frontiera e hyperscaler. Poiché le leggi di scalabilità continuano a evolversi a un ritmo senza precedenti, NVIDIA attribuisce questi miglioramenti delle prestazioni alla sua strategia di “co-progettazione estrema”, insieme a quella che è ormai ampiamente riconosciuta come Legge di Huang.

Confrontando il GB300 NVL72 con la serie Hopper, è essenziale riconoscere le sottili differenze nei nodi di elaborazione e nelle architetture. NVIDIA ha anche confrontato il GB200 con il GB300 NVL72 per valutare le prestazioni dei carichi di lavoro a lungo contesto. Le limitazioni contestuali rimangono un fattore significativo per gli agenti, poiché la gestione di una base di codice estesa può aumentare esponenzialmente l’utilizzo dei token. Con Blackwell Ultra, NVIDIA è in grado di segnalare costi per token fino a 1, 5 volte inferiori e un’elaborazione dell’attenzione 2 volte più veloce, rendendolo eccezionalmente adatto per attività incentrate sugli agenti.
Con l’inizio dell’integrazione di Blackwell Ultra in ambienti hyperscaler, questi benchmark rappresentano alcune delle prime valutazioni di questa architettura. I risultati iniziali suggeriscono che NVIDIA ha mantenuto un solido livello di scalabilità delle prestazioni, allineato alle moderne applicazioni di intelligenza artificiale. Inoltre, con i prossimi progressi come quelli attesi da Vera Rubin, la generazione Blackwell potrebbe spingere NVIDIA ancora più avanti nel competitivo panorama delle infrastrutture.
Lascia un commento