NVIDIA franchit la barre des 1 000 TPS avec les GPU Blackwell et Llama 4 Maverick de Meta pour des vitesses de jeton record

NVIDIA a réalisé une avancée significative en matière de performances en intelligence artificielle (IA) avec le lancement de son architecture Blackwell. Cette innovation est largement attribuée à une série d’optimisations stratégiques et à des capacités matérielles améliorées.

Progrès de Blackwell : amélioration des performances de l’IA pour les modèles linguistiques à grande échelle

Repoussant sans cesse les limites de l’IA, NVIDIA a réalisé des progrès remarquables grâce à sa technologie Blackwell. Dans un récent article de blog, l’entreprise a annoncé avoir franchi le cap impressionnant des 1 000 jetons par seconde (TP/s) grâce à un seul nœud DGX B200 équipé de huit GPU NVIDIA Blackwell. Cet exploit a été réalisé grâce à l’utilisation du modèle Maverick Llama 4 de Meta, doté de 400 milliards de paramètres, illustrant ainsi l’impact considérable de l’écosystème IA de NVIDIA sur le secteur.

Grâce à cette configuration avancée, les serveurs Blackwell de NVIDIA peuvent atteindre un débit impressionnant de 72 000 TP/s. Comme l’a souligné le PDG Jensen Huang lors de son discours au Computex, les entreprises sont plus que jamais motivées à présenter leurs avancées en matière d’IA, notamment en termes de débits de jetons. Cette tendance témoigne de la forte volonté de NVIDIA d’améliorer cet aspect spécifique du développement de l’IA.

Atteindre une vitesse aussi révolutionnaire nécessite d’importantes optimisations logicielles, notamment grâce à TensorRT-LLM et à un modèle de décodage spéculatif innovant, qui ont permis de multiplier par quatre les performances. L’équipe NVIDIA a analysé divers éléments ayant contribué à affiner Blackwell pour les modèles de langage étendus (LLM).Une innovation majeure réside dans l’utilisation du décodage spéculatif, une méthode qui utilise un modèle « ébauche » agile pour prévoir plusieurs jetons à l’avance, tandis que le modèle principal (plus vaste) valide simultanément ces prédictions.

Le décodage spéculatif est une technique courante utilisée pour accélérer l’inférence des LLM sans compromettre la qualité du texte généré. Pour ce faire, un modèle « ébauche » plus petit et plus rapide prédit une séquence de jetons spéculatifs, qui sont ensuite vérifiés en parallèle par le LLM « cible » plus grand.

L’accélération provient de la génération potentielle de plusieurs jetons dans une itération du modèle cible, au prix d’une surcharge supplémentaire du modèle de brouillon.

– NVIDIA

De plus, NVIDIA a mis en œuvre l’architecture EAGLE3, un framework logiciel conçu spécifiquement pour améliorer les processus d’inférence des grands modèles de langage, plutôt que de s’appuyer uniquement sur les avancées matérielles des GPU. Grâce à ces développements, NVIDIA affirme non seulement sa position de leader dans le domaine de l’IA, mais positionne également Blackwell comme une solution optimisée pour des LLM de premier plan comme Llama 4 Maverick. Cette étape représente une étape cruciale vers des interactions IA plus rapides et plus fluides à l’avenir.

Source et images