NVIDIA dévoile des informations techniques sur les racks et plateaux NVL Blackwell GB200 et GB300, ainsi que sur les initiatives Open Compute de MGX.

NVIDIA dévoile des informations techniques sur les racks et plateaux NVL Blackwell GB200 et GB300, ainsi que sur les initiatives Open Compute de MGX.

NVIDIA a récemment mené une analyse approfondie de ses systèmes Blackwell GB200 et GB300, en se concentrant sur leurs conceptions architecturales, leurs racks, leurs plateaux et leur intégration avec l’Open Compute Project (OCP).

NVIDIA dévoile les architectures Blackwell et les contributions Open Compute lors du Hot Chips 2025

Lors de l’événement Hot Chips 2025, NVIDIA a développé sa vision des solutions informatiques optimisées avec le lancement de la plateforme Blackwell Ultra, après le lancement réussi de ses premiers serveurs Blackwell l’année dernière. L’ingénieur en mécanique John Norton a animé une présentation complète des systèmes GB200 et GB300, dans le cadre de l’engagement de NVIDIA en faveur des normes informatiques ouvertes.

La présentation a débuté par un aperçu détaillé de l’architecture MGX, que NVIDIA a contribué à l’OCP l’année précédente. Norton a évoqué les différents obstacles rencontrés lors du développement des modèles GB200 et GB300, soulignant la polyvalence nécessaire pour une gamme d’applications allant au-delà de l’IA et de l’inférence.

Étude de cas NVIDIA GB200/300 par John Norton, ingénieur mécanique. Présentation Hot Chips 2025.

L’architecture MGX a été spécialement conçue pour répondre aux complexités de la mise à l’échelle des accélérateurs pour diverses charges de travail à l’échelle mondiale. Les besoins des clients étaient variés, allant des exigences réseau uniques aux combinaisons CPU et GPU personnalisées. Par conséquent, NVIDIA a adopté une approche itérative du développement système, conscient que de petits ajustements pouvaient avoir des conséquences importantes à tous les niveaux. Ce constat a conduit à la création de l’architecture modulaire MGX.

En segmentant le système en composants plus petits et interopérables, NVIDIA permet aux clients de modifier des éléments individuels sans remanier l’ensemble du système. Cette approche innovante simplifie non seulement les investissements initiaux, mais favorise également une plateforme flexible et ouverte grâce à l’OCP, encourageant ainsi les personnalisations axées sur le client.

Introduction à MGX : architecture modulaire évolutive centrée sur le GPU pour des solutions informatiques accélérées.

Norton a analysé plus en détail deux composants essentiels du framework MGX : l’infrastructure rack MGX et les plateaux de calcul et de commutation MGX, essentiels à l’assemblage des systèmes GB200 « Blackwell ».L’utilisation de normes de conception ouvertes par NVIDIA garantit transparence et accessibilité. NVIDIA fournit des modèles et spécifications complets, téléchargeables via OCP.

Spécifications du rack et du plateau informatique MGX avec conception modulaire pour les contributions OCP.

Lors de la présentation, NVIDIA a présenté les spécifications techniques des plateformes GB200 et GB300. Le rack comprend des commutateurs en haut, suivis d’une alimentation qui convertit la haute tension alternative du centre de données en courant continu pour la distribution dans tout le système.

Disposition du rack système GB200/300 avec colonne vertébrale NVLINK et alimentations.

La configuration GB200 intègre 300 puces réparties sur 10 plateaux de calcul, complétés par neuf plateaux de commutation et huit autres plateaux de calcul. Chaque plateau de calcul peut fournir 80 pétaflops FP4, contribuant ainsi à une performance globale de 1, 4 exaflops. La consommation électrique du système complet est d’environ 120 kilowatts, chaque plateau de calcul consommant environ 7 kilowatts, interconnectés par le réseau NVLink.

Schéma de présentation du rack GB200/300, présentant les dimensions et les fonctionnalités pour le déploiement en entreprise.

Le NVLink atteint un débit impressionnant de 200 Gbit/s par voie, facilitant les communications à faible latence entre les plateaux GPU et les plateaux de commutation. Cette interconnexion en cuivre met en valeur les avantages du cuivre pour le transfert de données à haut débit.

Schéma du système de refroidissement liquide et spine NVLINK pour une efficacité améliorée du centre de données.

NVIDIA a également présenté son approche des spécifications de rack. En déployant les périphériques selon un pas de 48 millimètres – légèrement plus serré que le pas traditionnel de 44, 5 millimètres utilisé pour le matériel d’entreprise standard –, l’entreprise maximise la densité des nœuds dans ses racks, générant ainsi de nombreux avantages opérationnels.

Diagramme des avantages de 19 RU pour une densité de calcul et de câblage efficace dans les centres de données.

Une conception de barre omnibus améliorée capable de gérer environ 35 kilowatts a également été abordée, étendue pour prendre en charge jusqu’à 1 400 ampères grâce à une section transversale en cuivre améliorée, facilitant ainsi des besoins en énergie plus importants.

Diagramme de topologie PCIe du plateau de calcul NVIDIA GB200/300 NVL pour une connexion 2P:4GPU.

Chaque plateau de calcul intègre deux processeurs et quatre GPU, ainsi qu’un module processeur hôte (HPM) prenant en charge un processeur Grace et deux GPU Blackwell. Cette conception innovante offre des options de connectivité flexibles, garantissant une intégration fluide des systèmes d’E/S.

Schéma des plateaux de calcul accélérés MGX avec composants étiquetés.

Les plateaux présentent également des configurations personnalisables pour diverses solutions de refroidissement et options de gestion des câbles, soulignant la modularité de la plate-forme pour les applications ciblées.

Schéma du plateau de commutation des plateaux de calcul accélérés MGX avec les points forts détaillés des composants.

L’arrière du plateau de calcul est équipé de déconnexions rapides universelles (UQD), qui sont standardisées par OCP et prennent en charge le refroidissement liquide complet pour une efficacité améliorée.

Évolution de l'architecture du centre de données avec NVLINK Fusion et technologie de refroidissement avancée.

En conclusion, NVIDIA a confirmé que les systèmes GB200 et GB300 sont désormais en pleine production et déployés dans divers centres de données hyperscale à travers le monde. NVIDIA continue d’innover chaque année, améliorant la densité, l’efficacité énergétique et les solutions de refroidissement, grâce à des initiatives comme NVLink Fusion qui promettent des avancées significatives en matière de capacités de traitement des données.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *