NVIDIA supera la barriera dei 1.000 TPS con le GPU Blackwell e Llama 4 Maverick di Meta per velocità record dei token

NVIDIA ha compiuto un passo avanti significativo nelle prestazioni dell’intelligenza artificiale (IA) con l’introduzione della sua architettura Blackwell. Questa innovazione è in gran parte attribuibile a una serie di ottimizzazioni strategiche e a funzionalità hardware migliorate.

Progressi in Blackwell: miglioramento delle prestazioni dell’intelligenza artificiale per modelli linguistici su larga scala

Spingendo costantemente i confini dell’intelligenza artificiale, NVIDIA ha compiuto notevoli progressi con la sua tecnologia Blackwell. In un recente post sul blog, l’azienda ha annunciato di aver raggiunto l’impressionante traguardo di 1.000 token al secondo (TP/S) utilizzando un singolo nodo DGX B200 dotato di otto GPU NVIDIA Blackwell. Questo risultato è stato raggiunto lavorando con il modello Llama 4 Maverick di Meta, un’architettura da 400 miliardi di parametri, a dimostrazione del profondo impatto dell’ecosistema di intelligenza artificiale di NVIDIA sul settore.

Con questa configurazione avanzata, i server Blackwell di NVIDIA possono raggiungere l’incredibile velocità di 72.000 TP/s. Come sottolineato dal CEO Jensen Huang durante il suo discorso al Computex, le organizzazioni sono ora più motivate che mai a mostrare i progressi compiuti nell’IA, in particolare in termini di velocità di output dei token. Questa tendenza indica il forte impegno di NVIDIA nel migliorare questo specifico aspetto dello sviluppo dell’IA.

Raggiungere una velocità così rivoluzionaria richiede significative ottimizzazioni software, in particolare tramite TensorRT-LLM e un innovativo modello di decodifica speculativa, che si traduce in un’accelerazione quadrupla delle prestazioni. Il team di NVIDIA approfondisce i vari elementi che hanno contribuito all’ottimizzazione di Blackwell per modelli linguistici di grandi dimensioni (LLM) estesi. Un’innovazione fondamentale è l’uso della decodifica speculativa, un metodo che impiega un agile modello “bozza” per prevedere diversi token in anticipo, mentre il modello principale (più ampio) convalida contemporaneamente queste previsioni.

La decodifica speculativa è una tecnica diffusa utilizzata per accelerare la velocità di inferenza degli LLM senza compromettere la qualità del testo generato. Questo obiettivo viene raggiunto grazie a un modello di “bozza” più piccolo e veloce che prevede una sequenza di token speculativi, che vengono poi verificati in parallelo dall’LLM “target” più grande.

L’accelerazione deriva dalla generazione di potenzialmente più token in un’iterazione del modello target, al costo di un sovraccarico aggiuntivo del modello di bozza.

– NVIDIA

Inoltre, NVIDIA ha implementato l’architettura basata su EAGLE3, un framework software progettato specificamente per migliorare i processi di inferenza per modelli linguistici di grandi dimensioni, anziché affidarsi esclusivamente ai progressi hardware della GPU. Con questi sviluppi, NVIDIA non solo consolida la propria posizione di leadership nel settore dell’intelligenza artificiale, ma posiziona anche Blackwell come soluzione ottimizzata per LLM di spicco come Llama 4 Maverick. Questa pietra miliare rappresenta un passo fondamentale verso interazioni di intelligenza artificiale più rapide e fluide in futuro.

Fonte e immagini