NVIDIA Blackwell Ultra améliore les performances de l’IA agentique : jusqu’à 50 fois plus de jetons par watt et une gestion optimisée des charges de travail à contexte long

NVIDIA Blackwell Ultra améliore les performances de l’IA agentique : jusqu’à 50 fois plus de jetons par watt et une gestion optimisée des charges de travail à contexte long

NVIDIA a présenté sa toute dernière solution de calcul pour les hyperscalers : le Blackwell Ultra. Des tests récents du GB300 NVL72 révèlent ses performances exceptionnelles, notamment pour les applications à faible latence et à contexte étendu.

Le paysage de l’IA a connu des transformations profondes depuis son essor en 2022, avec un accent particulier sur l’informatique agentielle, s’appuyant sur des applications et des frameworks avancés. Pour les fournisseurs d’infrastructure comme NVIDIA, la nécessité d’une bande passante mémoire et de performances élevées est cruciale pour répondre aux exigences strictes de latence de ces systèmes sophistiqués. Leur gamme Blackwell Ultra relève efficacement ce défi. Dans une évaluation récente publiée par NVIDIA sur son blog, la Blackwell Ultra a obtenu des résultats exceptionnels sur le benchmark InferenceMAX de SemiAnalysis.

Un graphique linéaire intitulé « Débit DeepSeekR1 par MW » montre que le GB300 NVL72 NVFP4 atteint un débit de jetons nettement supérieur.

NVIDIA met en avant un indicateur crucial, le « token/watt », essentiel au développement des hyperscalers actuels. L’accent mis sur l’amélioration des performances brutes et du débit est manifeste : le GB300 NVL72 affiche un débit par mégawatt 50 fois supérieur à celui des GPU Hopper de la génération précédente. Un comparatif illustratif présente l’état de déploiement optimal de chaque architecture.

Comment NVIDIA parvient-elle à de tels gains de débit ? La réponse réside dans sa technologie NVLink de pointe. La Blackwell Ultra dispose d’une configuration à 72 GPU unifiés en une seule interface NVLink, offrant une connectivité impressionnante de 130 To/s.À l’inverse, la série Hopper utilise une architecture NVLink à 8 puces qui, bien qu’efficace, n’égale pas l’architecture et l’agencement novateurs de la Blackwell Ultra. De plus, l’introduction du format de précision NVFP4 est essentielle, consolidant la domination de la GB300 en termes de débit.

Une baie de serveurs partiellement ouverte laisse apparaître les composants matériels et le câblage NVIDIA à l'intérieur.
Crédits image : NVIDIA

Avec l’essor de l’IA « agentive », les évaluations de NVIDIA concernant le GB300 NVL72 mettent également l’accent sur le coût des jetons, en plus des améliorations mentionnées précédemment. L’équipe NVIDIA annonce une réduction significative de 35 fois du coût par million de jetons, positionnant ce système comme le choix de prédilection pour les tâches d’inférence auprès des laboratoires de pointe et des hyperscalers. Alors que les lois de mise à l’échelle continuent d’évoluer à un rythme sans précédent, NVIDIA attribue ces gains de performance à sa stratégie de « co-conception extrême », ainsi qu’à ce qui est désormais largement reconnu comme la loi de Huang.

Un graphique linéaire intitulé « GB300 NVL72 : un grand pas en avant pour l'IA à contexte long » montre que GB300 NVL72 atteint un coût par jeton 1, 5 fois inférieur.

Lorsqu’on compare le GB300 NVL72 à la série Hopper, il est essentiel de tenir compte des différences subtiles au niveau des nœuds de calcul et de l’architecture. NVIDIA a également comparé le GB200 au GB300 NVL72 afin d’évaluer les performances sur des charges de travail à contexte long. Les limitations contextuelles restent un facteur important pour les agents, car la gestion d’une base de code étendue peut faire exploser la consommation de jetons. Avec Blackwell Ultra, NVIDIA annonce des coûts par jeton jusqu’à 1, 5 fois inférieurs et un traitement de l’attention deux fois plus rapide, ce qui le rend particulièrement adapté aux tâches centrées sur les agents.

Alors que Blackwell Ultra commence à s’intégrer aux environnements des hyperscalers, ces benchmarks constituent certaines des premières évaluations de cette architecture. Les premiers résultats suggèrent que NVIDIA a maintenu une évolutivité des performances robuste, en phase avec les applications d’IA actuelles. De plus, grâce aux avancées à venir, telles que celles attendues de Vera Rubin, la génération Blackwell pourrait permettre à NVIDIA de consolider son avance dans le paysage concurrentiel des infrastructures.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *