NVIDIA préconise de repenser le coût total de possession de l’IA, en mettant l’accent sur le « coût par jeton

À mesure que l’industrie de l’intelligence artificielle (IA) atteint un stade plus avancé, les indicateurs traditionnels d’évaluation des infrastructures d’IA deviennent de plus en plus obsolètes. Face à ce constat, NVIDIA préconise un changement de paradigme dans la compréhension du coût total de possession (CTP) de l’IA en introduisant l’indicateur « coût par jeton ».

NVIDIA réinvente le coût total de possession de l’IA avec le coût par jeton

Dans le domaine de l’IA, les tokens sont devenus l’indicateur le plus crucial. Contrairement aux générations précédentes de centres de données, qui privilégiaient la puissance de calcul brute, les infrastructures d’IA contemporaines – appelées « usines à IA » – sont évaluées en fonction de leur production de tokens. L’accent n’est plus mis sur la simple génération d’un grand nombre de tokens, mais sur l’optimisation des coûts et l’efficacité. Il est donc essentiel de repenser la notion de coût total de possession (TCO) pour les usines à IA.

NVIDIA souligne que de nombreuses entreprises continuent de s’appuyer sur des indicateurs comparatifs obsolètes, tels que les spécifications des puces et les coûts de calcul. Un changement d’approche est indispensable.

Coût de calcul : Cela représente les dépenses engagées par les entreprises pour l’infrastructure d’IA, qu’elle provienne de fournisseurs de cloud ou soit maintenue sur site.
FLOPS par dollar : Cet indicateur désigne la quantité de puissance de calcul qu’une entreprise obtient pour chaque dollar dépensé ; cependant, il ne représente pas avec précision la production réelle de jetons.
Coût par jeton : Ce chiffre fournit une analyse complète des coûts de production de chaque jeton livré, généralement exprimé en coût par million de jetons.

Une diapositive présentant une formule pour calculer le « coût par million de jetons » en utilisant le « coût par GPU par heure » et le « nombre de jetons par GPU par seconde » multipliés par « 60 secondes × 60 minutes » et « 1 million ».

Dans leur analyse, NVIDIA explique plusieurs facteurs pouvant contribuer à réduire le coût par jeton. Ils proposent une formule pour calculer le coût par million de jetons, soulignant que de nombreuses entreprises d’IA se concentrent principalement sur le numérateur (coût par GPU et par heure), négligeant ainsi le dénominateur essentiel qui influe considérablement sur les coûts et les revenus globaux.

Minimiser le coût des jetons : Augmenter la production de jetons peut entraîner une réduction des coûts par jeton, améliorant ainsi les marges bénéficiaires sur chaque interaction traitée.
Optimisation des revenus : Une augmentation du nombre de jetons distribués par seconde équivaut à un plus grand nombre de jetons par mégawatt, contribuant ainsi à une plus grande intelligence pour les produits et services basés sur l’IA, avec le potentiel d’augmenter les revenus provenant des investissements existants dans les infrastructures.

Pourquoi est-ce important ? La réponse fondamentale réside dans le fait que, pour les entreprises spécialisées en IA, se concentrer sur le coût par jeton est primordial par rapport à des comparaisons simplistes comme les FLOPS par dollar.

Un graphique intitulé « Iceberg de l'inférence » présente les spécifications des puces avec des termes tels que « FLOPS par dollar » et « Coût par jeton », mettant en évidence la conception des calculs, de la mémoire et du logiciel.

NVIDIA compare les performances et le coût de ses GPU Hopper et Blackwell, révélant que si les GPU Hopper sont nettement moins chers à l’usage (environ deux fois moins), le rapport FLOPS/prix est également deux fois moins élevé. Cependant, ce seul constat ne rend pas compte des avantages considérables offerts par l’architecture Blackwell.

Les différences les plus notables apparaissent lorsqu’on considère le débit de jetons et le coût par million de jetons. Dans ces domaines, Blackwell surpasse Hopper jusqu’à 65 fois, avec un coût par million de jetons 35 fois inférieur. Ces données sont issues du benchmark InferenceX v2 de SemiAnalysis.

Métrique	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell par rapport à Hopper
Coût par GPU et par heure ($)	1, 41 $	2, 65 $	2x
FLOP par dollar (PFLOPS)	2.8	5.6	2x
Jetons par seconde et par GPU	90	6 000	65x
Jetons par seconde par MW	54K	2, 8 M	50x
Coût par million de jetons ($)	4, 20 $	0, 12 $	35 fois plus bas

Bien que l’on puisse considérer ces chiffres comme de simples « calculs du PDG de NVIDIA », une logique sous-jacente solide justifie leur importance. NVIDIA propose une suite logicielle d’IA performante et excelle systématiquement dans les tests de performance, devançant largement ses concurrents.

Le PDG de NVIDIA a également exhorté d’autres entreprises à mettre leurs puces à l’épreuve, les mettant au défi de fournir la preuve de performances supérieures à celles des produits NVIDIA.

« Personne ne peut me prouver qu’une plateforme au monde offre aujourd’hui un meilleur ratio performance/coût total de possession (TCO).Pas une seule entreprise… Je les encourage à utiliser InferenceMax et à démontrer leur incroyable coût d’inférence. C’est vraiment très difficile… personne ne veut se présenter.»

Jensen Huang – PDG de NVIDIA

En redéfinissant les indicateurs qui déterminent les performances de l’IA, NVIDIA ne se contente pas de remporter une victoire en matière de benchmarks ; l’entreprise revendique un rôle central dans l’établissement des indicateurs les plus importants pour les entreprises spécialisées en IA.

Source et images