Le paysage du calcul en intelligence artificielle (IA) évolue rapidement, comme l’a souligné un expert de Nebius, fournisseur majeur d’infrastructures informatiques, lors d’un entretien avec AlphaSense. Face à l’expansion des capacités de calcul en IA, NVIDIA continue de dominer le secteur grâce à ses processeurs graphiques (GPU) de pointe. Cependant, des alternatives émergent, notamment en raison de l’évolution des modèles de tarification sur le marché.
Des alternatives de plus en plus nombreuses aux puces NVIDIA face à l’évolution des coûts
La tarification des infrastructures d’IA dépend du type de GPU utilisé et du mode de réservation (à l’avance ou à la demande).Par exemple, les GPU NVIDIA H100 sont facturés 2, 95 $ l’heure pour une capacité à la demande, tandis que leur version plus récente, le H200, coûte 3, 50 $ l’heure. Les derniers modèles Blackwell B200 sont quant à eux proposés entre 4, 90 $ et 6, 50 $ l’heure.
À l’inverse, lorsque les entreprises optent pour une capacité réservée sur une durée contractuelle d’un à deux ans — avec un engagement d’au moins 10 000 GPU —, les coûts diminuent considérablement. Dans ce cas, les prix s’établissent à 1, 50 $ l’heure pour les H100, 2, 20 $ pour les H200 et un minimum de 3, 50 $ pour les B200. Cette réduction drastique des coûts souligne les avantages stratégiques des contrats à long terme pour la maîtrise des dépenses opérationnelles.

La transformation des entreprises : l’inférence et l’essor de la tarification par jetons
Dans un développement majeur, NVIDIA a conclu un accord de licence crucial avec Groq fin 2025, son plus important contrat à ce jour, confirmant ainsi son engagement dans les technologies d’inférence IA. Selon l’expert de Nebius, l’inférence représente désormais entre 90 % et 95 % des besoins en charge de travail des entreprises. Cette évolution reflète la tendance croissante des organisations à privilégier les modèles pré-entraînés et les API plutôt que de développer des logiciels propriétaires.
De plus, cette transition de l’entraînement à l’inférence nécessite une réévaluation complète des structures de coûts des infrastructures d’IA. L’expert a souligné que cette évolution n’est pas une simple tendance, mais représente un changement fondamental dans la manière dont les entreprises évaluent et déploient leurs ressources informatiques.
Coût par million de jetons : analyse comparative de NVIDIA et Groq
Avec l’adoption de cette nouvelle structure de coûts par les entreprises, la tarification par jeton — et plus précisément par million de jetons — est devenue de plus en plus courante. Les puces de Groq se distinguent par leur prix plus économique, oscillant entre cinq et dix centimes par million de jetons.À l’inverse, les solutions proposées par NVIDIA, telles que les B100, B200 ou B300, sont nettement plus chères, à 25 centimes par million de jetons.
Outre leur rapport coût-efficacité, les puces Groq surpassent les alternatives NVIDIA en termes de vitesse, avec une capacité de traitement allant jusqu’à 800 jetons par seconde, soit près du double des 450 jetons par seconde des GPU NVIDIA. Cette combinaison de prix abordable et de performances confère à Groq un avantage concurrentiel sur le marché.
| Métrique | NVIDIA (Blackwell B200) | Groq LPU |
| Coût (par million de jetons) | 0, 25 $ | 0, 10 $ (60 % moins cher) |
| Débit (jetons/seconde) | 450 | 800 (77 % plus rapide) |
| Charge de travail principale | Entraînement intensif / Entreprise | Inférence à haut débit |
Interview d’un employé de NBI sur les raisons pour lesquelles des puces d’inférence alternatives commencent à contester la domination de NVDA ( CRWV, GOOGL ) : L’expert souligne que l’inférence représente désormais environ 90 à 95 % des charges de travail des entreprises, étant donné que la plupart d’entre elles s’appuient sur des API ou des modèles pré-entraînés… pic.twitter.com/qINeuptisu
— AlphaSense (@AlphaSenseInc) 23 avril 2026
Pour plus de détails, veuillez vous référer à la source originale.
Laisser un commentaire