
NVIDIA a récemment mené une analyse approfondie de ses systèmes Blackwell GB200 et GB300, en se concentrant sur leurs conceptions architecturales, leurs racks, leurs plateaux et leur intégration avec l’Open Compute Project (OCP).
NVIDIA dévoile les architectures Blackwell et les contributions Open Compute lors du Hot Chips 2025
Lors de l’événement Hot Chips 2025, NVIDIA a développé sa vision des solutions informatiques optimisées avec le lancement de la plateforme Blackwell Ultra, après le lancement réussi de ses premiers serveurs Blackwell l’année dernière. L’ingénieur en mécanique John Norton a animé une présentation complète des systèmes GB200 et GB300, dans le cadre de l’engagement de NVIDIA en faveur des normes informatiques ouvertes.
La présentation a débuté par un aperçu détaillé de l’architecture MGX, que NVIDIA a contribué à l’OCP l’année précédente. Norton a évoqué les différents obstacles rencontrés lors du développement des modèles GB200 et GB300, soulignant la polyvalence nécessaire pour une gamme d’applications allant au-delà de l’IA et de l’inférence.

L’architecture MGX a été spécialement conçue pour répondre aux complexités de la mise à l’échelle des accélérateurs pour diverses charges de travail à l’échelle mondiale. Les besoins des clients étaient variés, allant des exigences réseau uniques aux combinaisons CPU et GPU personnalisées. Par conséquent, NVIDIA a adopté une approche itérative du développement système, conscient que de petits ajustements pouvaient avoir des conséquences importantes à tous les niveaux. Ce constat a conduit à la création de l’architecture modulaire MGX.
En segmentant le système en composants plus petits et interopérables, NVIDIA permet aux clients de modifier des éléments individuels sans remanier l’ensemble du système. Cette approche innovante simplifie non seulement les investissements initiaux, mais favorise également une plateforme flexible et ouverte grâce à l’OCP, encourageant ainsi les personnalisations axées sur le client.

Norton a analysé plus en détail deux composants essentiels du framework MGX : l’infrastructure rack MGX et les plateaux de calcul et de commutation MGX, essentiels à l’assemblage des systèmes GB200 « Blackwell ».L’utilisation de normes de conception ouvertes par NVIDIA garantit transparence et accessibilité. NVIDIA fournit des modèles et spécifications complets, téléchargeables via OCP.

Lors de la présentation, NVIDIA a présenté les spécifications techniques des plateformes GB200 et GB300. Le rack comprend des commutateurs en haut, suivis d’une alimentation qui convertit la haute tension alternative du centre de données en courant continu pour la distribution dans tout le système.

La configuration GB200 intègre 300 puces réparties sur 10 plateaux de calcul, complétés par neuf plateaux de commutation et huit autres plateaux de calcul. Chaque plateau de calcul peut fournir 80 pétaflops FP4, contribuant ainsi à une performance globale de 1, 4 exaflops. La consommation électrique du système complet est d’environ 120 kilowatts, chaque plateau de calcul consommant environ 7 kilowatts, interconnectés par le réseau NVLink.

Le NVLink atteint un débit impressionnant de 200 Gbit/s par voie, facilitant les communications à faible latence entre les plateaux GPU et les plateaux de commutation. Cette interconnexion en cuivre met en valeur les avantages du cuivre pour le transfert de données à haut débit.

NVIDIA a également présenté son approche des spécifications de rack. En déployant les périphériques selon un pas de 48 millimètres – légèrement plus serré que le pas traditionnel de 44, 5 millimètres utilisé pour le matériel d’entreprise standard –, l’entreprise maximise la densité des nœuds dans ses racks, générant ainsi de nombreux avantages opérationnels.

Une conception de barre omnibus améliorée capable de gérer environ 35 kilowatts a également été abordée, étendue pour prendre en charge jusqu’à 1 400 ampères grâce à une section transversale en cuivre améliorée, facilitant ainsi des besoins en énergie plus importants.

Chaque plateau de calcul intègre deux processeurs et quatre GPU, ainsi qu’un module processeur hôte (HPM) prenant en charge un processeur Grace et deux GPU Blackwell. Cette conception innovante offre des options de connectivité flexibles, garantissant une intégration fluide des systèmes d’E/S.

Les plateaux présentent également des configurations personnalisables pour diverses solutions de refroidissement et options de gestion des câbles, soulignant la modularité de la plate-forme pour les applications ciblées.

L’arrière du plateau de calcul est équipé de déconnexions rapides universelles (UQD), qui sont standardisées par OCP et prennent en charge le refroidissement liquide complet pour une efficacité améliorée.

En conclusion, NVIDIA a confirmé que les systèmes GB200 et GB300 sont désormais en pleine production et déployés dans divers centres de données hyperscale à travers le monde. NVIDIA continue d’innover chaque année, améliorant la densité, l’efficacité énergétique et les solutions de refroidissement, grâce à des initiatives comme NVLink Fusion qui promettent des avancées significatives en matière de capacités de traitement des données.
Laisser un commentaire