NVIDIA propone di ripensare il costo totale di proprietà dell’IA, sottolineando il “costo per token” come parametro chiave.

Con il progredire dell’industria dell’intelligenza artificiale (IA), le metriche tradizionali per la valutazione delle infrastrutture IA sono diventate sempre più obsolete. Per questo motivo, NVIDIA promuove un cambio di paradigma nella comprensione del costo totale di proprietà (TCO) dell’IA, introducendo la metrica ” Costo per token “.

NVIDIA reinventa il TCO dell’IA con il costo per token

Nel contesto dell’intelligenza artificiale, i token sono emersi come la metrica più critica. A differenza delle precedenti generazioni di data center, che si concentravano principalmente sulla pura potenza di calcolo, le infrastrutture di IA contemporanee – definite “fabbriche di IA” – vengono valutate in base alla loro produzione di token. L’enfasi si sposta ora dalla semplice generazione di un elevato volume di token al raggiungimento dell’efficienza e della convenienza economica. Pertanto, è fondamentale ripensare il modo in cui il costo totale di proprietà (TCO) viene concettualizzato per le fabbriche di IA.

NVIDIA sottolinea come molte aziende continuino a basarsi su parametri comparativi obsoleti, come le specifiche dei chip e i costi computazionali. Un cambio di prospettiva è essenziale.

Costo di elaborazione : rappresenta la spesa sostenuta dalle aziende per l’infrastruttura di intelligenza artificiale, sia che venga fornita da provider cloud o gestita in loco.
FLOPS per dollaro : questa metrica indica la quantità di potenza di calcolo che un’azienda si assicura per ogni dollaro speso; tuttavia, non riesce a rappresentare accuratamente l’output reale dei token.
Costo per token : questa cifra fornisce un’analisi completa dei costi di produzione di ciascun token consegnato, generalmente espressa come costo per milione di token.

Una diapositiva che mostra una formula per calcolare il "Costo per milione di token" utilizzando il "Costo per GPU all'ora" e i "Token per GPU al secondo" moltiplicati per "60 secondi × 60 minuti" e "1 milione".

Nella loro analisi, NVIDIA illustra diversi fattori che possono contribuire a ridurre il costo per token. Forniscono un’equazione per calcolare il costo per milione di token, sottolineando come molte aziende che operano nel settore dell’IA si concentrino principalmente sul numeratore, ovvero il costo per GPU all’ora, trascurando il denominatore, elemento cruciale che influenza significativamente i costi e i ricavi complessivi.

Minimizzare il costo dei token : l’aumento della produzione di token può portare a una riduzione dei costi per token, migliorando di conseguenza i margini di profitto su ogni interazione elaborata.
Massimizzazione dei ricavi : un aumento dei token consegnati al secondo equivale a più token per megawatt, contribuendo così a una maggiore intelligenza per prodotti e servizi basati sull’IA, con il potenziale di incrementare i ricavi derivanti dagli investimenti infrastrutturali esistenti.

Perché è importante? La risposta fondamentale risiede nel fatto che, per le aziende che si occupano di intelligenza artificiale, concentrarsi sul costo per token è di primaria importanza rispetto a confronti semplicistici come i FLOPS per dollaro.

Un grafico intitolato "Inference Iceberg" mostra le specifiche dei chip con termini come "FLOPS per dollaro" e "Costo per token", evidenziando la potenza di calcolo, la memoria e la progettazione del software.

NVIDIA mette a confronto le prestazioni e i costi delle sue GPU Hopper e Blackwell, rivelando che, sebbene le GPU Hopper siano significativamente meno costose da gestire (circa la metà), il rapporto FLOPS per dollaro indica una differenza altrettanto doppia. Tuttavia, questo da solo non rende appieno i notevoli vantaggi offerti dall’architettura Blackwell.

Le vere differenze emergono quando si considerano la velocità di elaborazione dei token e il costo per milione di token. In questi ambiti, Blackwell supera Hopper fino a 65 volte, con un costo per milione di token incredibilmente inferiore di 35 volte. Per ulteriori informazioni, si prega di notare che questi dati si basano sul benchmark InferenceX v2 di SemiAnalysis.

metrico	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell rispetto a Hopper
Costo per GPU all’ora ($)	$1, 41	$2, 65	2x
FLOP per dollaro (PFLOPS)	2.8	5.6	2x
Token al secondo per GPU	90	6.000	65x
Token al secondo per MW	54K	2, 8 milioni	50x
Costo per milione di token ($)	$4, 20	$0, 12	35 volte inferiore

Sebbene si possa liquidare queste cifre come semplici “calcoli da CEO” di NVIDIA, esiste una logica sottostante sostanziale che ne convalida il significato. NVIDIA vanta una solida suite di soluzioni software per l’intelligenza artificiale ed eccelle costantemente nei test di benchmark, lasciando la concorrenza molto indietro.

L’amministratore delegato di NVIDIA ha inoltre esortato le altre aziende a mettere alla prova i propri chip, sfidandole a fornire prove di prestazioni superiori rispetto alle offerte di NVIDIA.

“Nessuno può dimostrarmi che una singola piattaforma al mondo oggi abbia un rapporto TCO (Total Cost of Ownership) migliore. Nessuna azienda…Li incoraggio a usare InferenceMax e a dimostrare il loro incredibile costo di inferenza.È davvero molto difficile…nessuno vuole farsi avanti.”

Jensen Huang – Amministratore delegato di NVIDIA

Ridefinendo i parametri che guidano le prestazioni dell’IA, NVIDIA non si limita a rivendicare una vittoria in termini di benchmark; si sta affermando come figura chiave nella definizione dei parametri più importanti per le aziende che operano nel settore dell’IA.

Fonte e immagini