Le système Catalina Pod AI de Meta intègre NVIDIA Blackwell GB200 NVL72, Open Rack v3 et une technologie avancée de refroidissement liquide

Meta a dévoilé des détails importants concernant son système d’IA innovant Catalina, qui exploite la technologie GB200 NVL72 de NVIDIA, ainsi que les avancées dans Open Rack v3 et les systèmes de refroidissement liquide.

Révolutionner les centres de données : la plateforme NVIDIA GB200 NVL72 Blackwell personnalisée de Meta pour le Catalina Pod

En 2022, Meta s’est principalement concentré sur les clusters GPU, généralement composés d’environ 6 000 unités, destinés principalement à prendre en charge les algorithmes traditionnels de classement et de recommandation. Ces clusters fonctionnaient généralement avec des charges allant de 128 à 512 GPU. Cependant, une transformation remarquable a eu lieu l’année dernière, portée par l’essor fulgurant de l’IA générative (GenAI) et des grands modèles de langage (LLM).

Croissance de la taille des clusters d'IA par année

Aujourd’hui, les clusters GPU de Meta ont atteint une taille impressionnante de 16 000 à 24 000 GPU, soit une multiplication par quatre. L’année dernière, l’entreprise exploitait plus de 100 000 GPU et continue de s’agrandir. Grâce aux avancées logicielles telles que son modèle LLama, Meta prévoit une multiplication par dix de la taille de ses clusters dans un avenir proche.

Collaboration entre Meta, NVIDIA et Open Compute Project

Meta a lancé le projet Catalina en étroite collaboration avec NVIDIA, en utilisant la solution GPU NVL72 comme élément fondamental. Des modifications ont été apportées pour adapter le système à leurs besoins spécifiques, et les deux entreprises ont contribué à un framework open source avec des conceptions de référence pour MGX et NVL72, permettant ainsi une large accessibilité sur le site web de l’Open Compute Project.

Racks informatiques pour centres de données

Le système Catalina représente les déploiements de pointe de Meta dans ses centres de données, dans lesquels chaque configuration système est appelée « pod ».Cette conception modulaire permet une évolutivité rapide des systèmes en dupliquant le cadre de base.

Configuration du système NVIDIA MGX GB200

Configuration de Meta Catalina avec Grace CPU

La conception NVL72 personnalisée de Meta se distingue par ses deux racks informatiques, chacun formant un domaine évolutif unique de 72 GPU. La configuration des deux racks est cohérente : ils abritent 18 plateaux de calcul répartis entre les sections supérieure et inférieure, ainsi que neuf commutateurs NV de chaque côté. L’intégration d’un câblage redondant est essentielle pour unifier les ressources GPU sur les deux racks, créant ainsi un domaine de calcul unique.

Comparaison des ressources NVIDIA et Meta GB200 NVL72

Chaque rack accueille également de grandes unités de refroidissement liquide à air (ALC) conçues pour faciliter les opérations à haute densité de puissance. Cette configuration permet à Meta de mettre en œuvre efficacement des systèmes de refroidissement liquide dans des centres de données en Amérique du Nord et dans le monde entier.

Présentation de l'architecture de Catalina

Grâce à ces deux racks, Meta peut doubler efficacement le nombre de processeurs et maximiser la capacité mémoire, permettant d’utiliser jusqu’à 34 To de mémoire LPDDR par rack, atteignant ainsi un total combiné de 48 To de mémoire cache cohérente, accessible aux GPU et aux CPU. Les blocs d’alimentation (PSU) fonctionnent en 480 V ou 277 V monophasés, convertis en 48 V CC, alimentant ainsi tous les serveurs lames, les périphériques réseau et les commutateurs NV de l’architecture.

Systèmes de refroidissement des centres de données

Système de détection de fuites dans un centre de données

Réseau de fabric planifié désagrégé optimisé par l'IA

Configuration réseau GPU avec interconnexions Catalina

De plus, la configuration comprend un plateau d’alimentation en haut et en bas de chaque rack, complété par des unités supplémentaires en bas. Meta a mis en place un panneau de chemin de fibre spécialisé qui gère l’ensemble du câblage fibre interne relié au réseau back-end, assurant ainsi une connectivité fluide aux commutateurs terminaux facilitant la montée en charge.

Pour soutenir cette infrastructure robuste, Meta a intégré les technologies avancées du système NVIDIA NVL72 GB200 Blackwell, ainsi que des améliorations uniques telles que des alimentations et des lames haute capacité. Les systèmes de refroidissement liquide, associés au contrôleur de gestion de rack (RMC), garantissent une gestion efficace des protocoles de refroidissement tout en surveillant les fuites.

Gros plan sur la carte de circuit imprimé PDB

Gros plan sur la carte matérielle DC-SCM

Diagramme de conception et de connectivité RMC

Ce déploiement significatif de l’OpenRack v3 haute capacité de Meta améliore la répartition de la puissance dans les racks jusqu’à 94 kW à 600 A, ce qui le rend compatible avec les installations avancées équipées de systèmes de refroidissement liquide intégrés. La gestion efficace de ce flux de liquide est assurée par le RMC, qui surveille les différents composants du rack pour détecter d’éventuelles fuites tout en orchestrant le fonctionnement optimal des systèmes de refroidissement.

Schéma d'architecture du plateau de calcul

De plus, l’adoption par Meta d’une structure planifiée désagrégée permet l’interconnexion de plusieurs modules au sein d’une même infrastructure de données, favorisant ainsi un modèle évolutif capable de relier de manière transparente plusieurs bâtiments. Cette infrastructure est adaptée aux applications d’IA, améliorant la communication entre les GPU et la flexibilité globale du système.

Source et images

Le système Catalina Pod AI de Meta intègre NVIDIA Blackwell GB200 NVL72, Open Rack v3 et une technologie avancée de refroidissement liquide

Révolutionner les centres de données : la plateforme NVIDIA GB200 NVL72 Blackwell personnalisée de Meta pour le Catalina Pod

Articles connexes:

GPU NVIDIA Blackwell Ultra « GB300 » : la puce IA la plus rapide avec double réticule, plus de 20 000 cœurs, 288 Go de mémoire HBM3e à 8 To/s, 50 % plus rapide que le GB200

NVIDIA dévoile des informations techniques sur les racks et plateaux NVL Blackwell GB200 et GB300, ainsi que sur les initiatives Open Compute de MGX.

Laisser un commentaire Annuler la réponse