El sistema de inteligencia artificial Catalina Pod de Meta integra NVIDIA Blackwell GB200 NVL72, Open Rack v3 y tecnología avanzada de refrigeración líquida.

Meta ha revelado detalles importantes sobre su innovador sistema Catalina AI, que aprovecha la tecnología GB200 NVL72 de NVIDIA, junto con avances en Open Rack v3 y sistemas de refrigeración líquida.

Revolucionando los centros de datos: la plataforma NVIDIA GB200 NVL72 Blackwell personalizada de Meta para el Catalina Pod

En 2022, Meta se centró principalmente en clústeres de GPU, que solían estar compuestos por unas 6000 unidades, destinados principalmente a respaldar algoritmos tradicionales de clasificación y recomendación. Estos clústeres solían operar con cargas que abarcaban desde 128 hasta 512 GPU. Sin embargo, durante el último año se ha producido una transformación notable, impulsada por el auge explosivo de la IA Generativa (GenAI) y los grandes modelos de lenguaje (LLM).

Crecimiento del tamaño de los clústeres de IA por año

Hoy en día, los clústeres de GPU de Meta se han expandido a una impresionante escala de 16 000 a 24 000 GPU, lo que supone un aumento de cuatro veces. El año pasado, la compañía operaba más de 100 000 GPU y seguía creciendo. Gracias a avances de software como su modelo LLama, Meta prevé un asombroso aumento de diez veces en el tamaño de sus clústeres en el futuro próximo.

Colaboración entre Meta, NVIDIA y Open Compute Project

Meta inició el proyecto Catalina en estrecha colaboración con NVIDIA, utilizando la solución de GPU NVL72 como elemento fundamental. Se realizaron modificaciones para adaptar el sistema a sus requisitos específicos, y ambas compañías aportaron diseños de referencia para MGX y NVL72 a un marco de código abierto, lo que permitió una amplia accesibilidad en el sitio web del Open Compute Project.

El sistema Catalina representa las implementaciones de vanguardia de Meta en sus centros de datos, donde cada configuración del sistema se denomina «pod».Este diseño modular permite la rápida escalabilidad de los sistemas al duplicar el marco básico.

Configuración del sistema NVIDIA MGX GB200

Configuración de Meta Catalina con CPU Grace

Una característica distintiva del diseño NVL72 personalizado de Meta son sus dos racks de TI, cada uno de los cuales forma un único dominio de escalado vertical de 72 GPU. Se mantiene la consistencia en la configuración de ambos racks, que albergan 18 bandejas de cómputo ubicadas entre las secciones superior e inferior, junto con nueve conmutadores NV a cada lado. La integración de cableado redundante es crucial para unificar los recursos de GPU en ambos racks, estableciendo así un único dominio de cómputo.

Comparación de recursos de NVIDIA y Meta GB200 NVL72

Cada rack también admite grandes unidades de refrigeración líquida asistida por aire (ALC), diseñadas para facilitar operaciones de alta densidad de potencia. Esta configuración permite a Meta implementar eficientemente sistemas de refrigeración líquida en centros de datos de Norteamérica y del mundo.

Descripción general de la arquitectura de Catalina

Con estos racks duales, Meta puede duplicar eficazmente la cantidad de CPU y maximizar la capacidad de memoria, permitiendo hasta 34 TB de memoria LPDDR por rack, logrando así un total combinado de 48 TB de memoria coherente con la caché, accesible tanto para GPU como para CPU. Las fuentes de alimentación (PSU) funcionan con 480 o 277 voltios monofásicos, convirtiéndose en 48 voltios de CC, que alimentan todos los servidores blade, dispositivos de red y conmutadores NV de la arquitectura.

Sistemas de refrigeración para centros de datos

Sistema de detección de fugas en el centro de datos

Red de tejido programada desagregada optimizada con IA

Configuración de red de GPU con interconexiones Catalina

Además, la configuración incluye un estante para fuente de alimentación tanto en la parte superior como en la inferior de cada rack, complementado con unidades adicionales en la base. Meta ha implementado un panel de ruta de fibra especializado que gestiona todo el cableado de fibra interno conectado a la red backend, garantizando una conectividad fluida con los conmutadores de punto final que facilitan el dominio de escalado.

Para respaldar la robusta infraestructura, Meta ha integrado tecnologías avanzadas inherentes al sistema NVIDIA NVL72 GB200 Blackwell, junto con mejoras únicas como fuentes de alimentación y blades de alta capacidad. Los sistemas de refrigeración líquida, junto con el controlador de gestión de racks (RMC), garantizan una gestión eficiente de los protocolos de refrigeración, a la vez que monitorizan la presencia de fugas.

Referencia de Meta Board vs. Nvidia GB200

Primer plano de la placa de circuito PDB

Primer plano de la placa de hardware DC-SCM

Diagrama de diseño y conectividad de RMC

Esta destacada implementación del OpenRack v3 de alta capacidad de Meta mejora la asignación de energía dentro de los racks hasta alcanzar los considerables 94 kW a 600 A, lo que lo hace compatible con instalaciones avanzadas con sistemas de refrigeración líquida integrados. La gestión eficiente de este flujo de líquido la realiza el RMC, que monitoriza diversos componentes del rack para detectar posibles fugas, a la vez que orquesta el funcionamiento óptimo de los sistemas de refrigeración.

Diagrama de arquitectura de la bandeja de cómputo

Además, la adopción por parte de Meta de una estructura programada desagregada permite la interconexión de múltiples módulos dentro de una única instalación de datos, lo que facilita un modelo escalable que conecta fácilmente varios edificios. Esta infraestructura está diseñada para aplicaciones de IA, lo que mejora la comunicación entre GPU y la flexibilidad general del sistema.

Fuente e imágenes

El sistema de inteligencia artificial Catalina Pod de Meta integra NVIDIA Blackwell GB200 NVL72, Open Rack v3 y tecnología avanzada de refrigeración líquida.

Revolucionando los centros de datos: la plataforma NVIDIA GB200 NVL72 Blackwell personalizada de Meta para el Catalina Pod

Artículos relacionados:

GPU NVIDIA Blackwell Ultra “GB300”: Presentamos el chip de IA más rápido con doble retícula, más de 20 000 núcleos, 288 GB de memoria HBM3e a 8 TB/s, un 50 % más rápido que el GB200.

NVIDIA presenta información técnica sobre los racks NVL Blackwell GB200 y GB300, las bandejas y las iniciativas de computación abierta de MGX

Deja una respuesta Cancelar la respuesta