
Meta a dévoilé des détails importants concernant son système d’IA innovant Catalina, qui exploite la technologie GB200 NVL72 de NVIDIA, ainsi que les avancées dans Open Rack v3 et les systèmes de refroidissement liquide.
Révolutionner les centres de données : la plateforme NVIDIA GB200 NVL72 Blackwell personnalisée de Meta pour le Catalina Pod
En 2022, Meta s’est principalement concentré sur les clusters GPU, généralement composés d’environ 6 000 unités, destinés principalement à prendre en charge les algorithmes traditionnels de classement et de recommandation. Ces clusters fonctionnaient généralement avec des charges allant de 128 à 512 GPU. Cependant, une transformation remarquable a eu lieu l’année dernière, portée par l’essor fulgurant de l’IA générative (GenAI) et des grands modèles de langage (LLM).

Aujourd’hui, les clusters GPU de Meta ont atteint une taille impressionnante de 16 000 à 24 000 GPU, soit une multiplication par quatre. L’année dernière, l’entreprise exploitait plus de 100 000 GPU et continue de s’agrandir. Grâce aux avancées logicielles telles que son modèle LLama, Meta prévoit une multiplication par dix de la taille de ses clusters dans un avenir proche.

Meta a lancé le projet Catalina en étroite collaboration avec NVIDIA, en utilisant la solution GPU NVL72 comme élément fondamental. Des modifications ont été apportées pour adapter le système à leurs besoins spécifiques, et les deux entreprises ont contribué à un framework open source avec des conceptions de référence pour MGX et NVL72, permettant ainsi une large accessibilité sur le site web de l’Open Compute Project.

Le système Catalina représente les déploiements de pointe de Meta dans ses centres de données, dans lesquels chaque configuration système est appelée « pod ».Cette conception modulaire permet une évolutivité rapide des systèmes en dupliquant le cadre de base.


La conception NVL72 personnalisée de Meta se distingue par ses deux racks informatiques, chacun formant un domaine évolutif unique de 72 GPU. La configuration des deux racks est cohérente : ils abritent 18 plateaux de calcul répartis entre les sections supérieure et inférieure, ainsi que neuf commutateurs NV de chaque côté. L’intégration d’un câblage redondant est essentielle pour unifier les ressources GPU sur les deux racks, créant ainsi un domaine de calcul unique.

Chaque rack accueille également de grandes unités de refroidissement liquide à air (ALC) conçues pour faciliter les opérations à haute densité de puissance. Cette configuration permet à Meta de mettre en œuvre efficacement des systèmes de refroidissement liquide dans des centres de données en Amérique du Nord et dans le monde entier.

Grâce à ces deux racks, Meta peut doubler efficacement le nombre de processeurs et maximiser la capacité mémoire, permettant d’utiliser jusqu’à 34 To de mémoire LPDDR par rack, atteignant ainsi un total combiné de 48 To de mémoire cache cohérente, accessible aux GPU et aux CPU. Les blocs d’alimentation (PSU) fonctionnent en 480 V ou 277 V monophasés, convertis en 48 V CC, alimentant ainsi tous les serveurs lames, les périphériques réseau et les commutateurs NV de l’architecture.





De plus, la configuration comprend un plateau d’alimentation en haut et en bas de chaque rack, complété par des unités supplémentaires en bas. Meta a mis en place un panneau de chemin de fibre spécialisé qui gère l’ensemble du câblage fibre interne relié au réseau back-end, assurant ainsi une connectivité fluide aux commutateurs terminaux facilitant la montée en charge.

Pour soutenir cette infrastructure robuste, Meta a intégré les technologies avancées du système NVIDIA NVL72 GB200 Blackwell, ainsi que des améliorations uniques telles que des alimentations et des lames haute capacité. Les systèmes de refroidissement liquide, associés au contrôleur de gestion de rack (RMC), garantissent une gestion efficace des protocoles de refroidissement tout en surveillant les fuites.






Ce déploiement significatif de l’OpenRack v3 haute capacité de Meta améliore la répartition de la puissance dans les racks jusqu’à 94 kW à 600 A, ce qui le rend compatible avec les installations avancées équipées de systèmes de refroidissement liquide intégrés. La gestion efficace de ce flux de liquide est assurée par le RMC, qui surveille les différents composants du rack pour détecter d’éventuelles fuites tout en orchestrant le fonctionnement optimal des systèmes de refroidissement.

De plus, l’adoption par Meta d’une structure planifiée désagrégée permet l’interconnexion de plusieurs modules au sein d’une même infrastructure de données, favorisant ainsi un modèle évolutif capable de relier de manière transparente plusieurs bâtiments. Cette infrastructure est adaptée aux applications d’IA, améliorant la communication entre les GPU et la flexibilité globale du système.
Laisser un commentaire