Les racks d’IA NVIDIA Blackwell Ultra GB300 excellent dans les charges de travail DeepSeek à contexte long, surpassant le GB200.

NVIDIA a récemment testé ses racks d’IA GB300 NVL72 avec les tout derniers modèles open source de DeepSeek. Après un réglage fin poussé et une inférence optimisée, les résultats sont prometteurs.

La carte graphique NVIDIA Blackwell Ultra offre des performances jusqu’à 1, 5 fois supérieures à celles de la GB200 NVL72 dans les tâches sensibles à la latence.

La dernière innovation de NVIDIA, la série GB300, vise à offrir des performances exceptionnelles en matière de contexte long, répondant ainsi à la demande croissante de capacités d’IA agentielle. Comme évoqué précédemment, l’architecture Blackwell Ultra affiche un débit par mégawatt 50 fois supérieur à celui de son prédécesseur, les GPU Hopper, grâce à une stratégie de co-conception unique. Des tests récents menés par la Large Model Systems Organization (LMSYS) ont mis en évidence les capacités d’inférence en contexte long du GB300 NVL72, avec des résultats très encourageants. Ces tests ont notamment porté sur le routage logiciel au niveau de l’infrastructure, un aspect que nous explorerons plus en détail.

Dans le domaine des charges de travail à contexte long, la dépendance à la VRAM du GPU s’accentue. Pour y remédier, l’équipe LMSYS a introduit une technique appelée désagrégation PD (Préremplissage-Décodage).Cette méthode répartit efficacement les charges de travail sur différents nœuds matériels, évitant ainsi les goulots d’étranglement potentiels. Concrètement, la phase de préremplissage, axée sur le traitement rapide, et la phase de décodage, qui implique la génération de jetons, bénéficient grandement de cette approche de désagrégation, ce qui se traduit par un débit accru à grande échelle.

Un graphique à barres intitulé « GB300 vs GB200 : TPS/GPU max.» montre que la GB300 surpasse la GB200 avec 226, 2 TPS/utilisateur lorsque le protocole MTP est désactivé. — Crédits photo : LMSYS

L’équipe LMSYS a également mis en œuvre diverses stratégies d’optimisation, notamment le découpage dynamique en segments pour des réponses rapides optimisées dans des contextes longs, ainsi qu’une traduction efficace de la capacité clé-valeur. Les principaux indicateurs de performance observés lors des tests sont les suivants :

Analyse comparative : NVIDIA GB300 NVL72 vs. GB200 NVL72

Débit de pointe : avantage de 1, 53x avec 226, 2 TPS/GPU (jetons par seconde)
Amélioration de la vitesse utilisateur : augmentation de 1, 87x du TPS/utilisateur grâce à la prédiction multi-jetons (MTP)
Amélioration de la latence : une latence 1, 58 fois plus faible a été observée.

Les évaluations indiquent que le GB300 conserve une avance de 1, 4 à 1, 5 fois sur le GB200, notamment dans les situations critiques en termes de latence. Spécialisée dans les applications multi-agents, l’architecture Blackwell Ultra se positionne comme un choix stratégique pour les charges de travail hautes performances. Toutefois, il est important de noter que les discussions sectorielles sur le coût total de possession (TCO) n’ont pas encore émergé, d’autant plus que les coûts de déploiement du GB300 ont augmenté simultanément.

Un rack serveur partiellement ouvert laisse apparaître les composants matériels et le câblage NVIDIA à l'intérieur. — Crédits image : NVIDIA

La stratégie de NVIDIA ne se limite pas aux innovations architecturales ; elle s’attaque également aux défis spécifiques du secteur. Notamment, les améliorations apportées à la latence de l’architecture Blackwell Ultra en font une option intéressante pour les hyperscalers et les néoclouds dans les environnements de calcul multi-agents.

Source et images