Des évaluations récentes des racks d’IA GB300 NVL72 de NVIDIA utilisant les derniers modèles open-source de DeepSeek indiquent un potentiel significatif après un réglage fin et des stratégies d’inférence optimisées.
Le processeur graphique NVIDIA Blackwell Ultra surpasse le GB200 NVL72 dans les tâches sensibles à la latence.
Le développement de l’architecture GB300 par NVIDIA vise principalement à optimiser les performances en contexte long, lui permettant ainsi de tirer parti de la demande croissante de solutions d’IA agentielle. Une analyse précédente a mis en évidence que Blackwell Ultra offre un gain extraordinaire de 50 fois en débit par mégawatt par rapport à son prédécesseur, les GPU Hopper, grâce à une méthodologie de co-conception rigoureuse. Récemment, l’organisation LMSYS (Large Model Systems Organization) a mené des tests axés sur l’inférence en contexte long, affichant des résultats particulièrement encourageants. Notamment, ces tests intègrent le routage logiciel au niveau de l’infrastructure, que nous examinerons plus en détail.
Lors du traitement de charges de travail à contexte long, la demande se porte souvent sur la VRAM du GPU. Pour pallier ce problème, l’équipe LMSYS a intégré la désagrégation PD (Préremplissage-Décodage), une stratégie efficace pour maintenir des contextes de jetons étendus sur différents nœuds de calcul. Cette approche novatrice atténue les goulots d’étranglement en répartissant les tâches sur des composants matériels distincts. La phase de préremplissage, qui gère le traitement rapide, ainsi que la génération de jetons lors de la phase de décodage, bénéficient considérablement de la désagrégation, ce qui se traduit par un débit global accru à grande échelle.

Outre la désagrégation des données distribuées, l’équipe LMSYS a utilisé plusieurs techniques d’optimisation pour améliorer les performances. Parmi celles-ci figurent le découpage dynamique en segments pour des temps de réponse plus rapides dans les scénarios à contexte long et une traduction efficace des capacités des paires clé-valeur. Les principaux indicateurs évalués étaient le débit, la capacité et les taux de latence.
Comparaison des cartes graphiques NVIDIA GB300 NVL72 et GB200 NVL72
- Débit de pointe multiplié par 1, 53 : 226, 2 TPS/GPU (jetons par seconde)
- Vitesse utilisateur améliorée de 1, 87x : augmentation substantielle du TPS/utilisateur grâce à la prédiction multi-jetons (MTP).
- Amélioration de la latence de 1, 58x : réduction notable des indicateurs de latence.
Les résultats de LMSYS indiquent que le GB300 surpasse systématiquement le GB200 de 1, 4 à 1, 5 fois, notamment dans les scénarios sensibles à la latence. Ce positionnement s’inscrit parfaitement dans la tendance croissante des charges de travail automatisées, suggérant que Blackwell Ultra est particulièrement bien adapté à ces exigences. Malgré ses avantages en termes de latence et de débit, le coût total de possession (CTP) reste inconnu, surtout compte tenu de l’augmentation des coûts de déploiement du GB300.

L’approche novatrice de NVIDIA met l’accent non seulement sur les avancées architecturales, mais aussi sur les solutions aux défis spécifiques à chaque secteur. Dans le domaine de Blackwell Ultra, les améliorations significatives des indicateurs de latence renforcent sa position dominante émergente parmi les hyperscalers et les fournisseurs de néocloud dans le secteur de l’IA agentielle.
Laisser un commentaire