
Meta ha revelado detalles importantes sobre su innovador sistema Catalina AI, que aprovecha la tecnología GB200 NVL72 de NVIDIA, junto con avances en Open Rack v3 y sistemas de refrigeración líquida.
Revolucionando los centros de datos: la plataforma NVIDIA GB200 NVL72 Blackwell personalizada de Meta para el Catalina Pod
En 2022, Meta se centró principalmente en clústeres de GPU, que solían estar compuestos por unas 6000 unidades, destinados principalmente a respaldar algoritmos tradicionales de clasificación y recomendación. Estos clústeres solían operar con cargas que abarcaban desde 128 hasta 512 GPU. Sin embargo, durante el último año se ha producido una transformación notable, impulsada por el auge explosivo de la IA Generativa (GenAI) y los grandes modelos de lenguaje (LLM).

Hoy en día, los clústeres de GPU de Meta se han expandido a una impresionante escala de 16 000 a 24 000 GPU, lo que supone un aumento de cuatro veces. El año pasado, la compañía operaba más de 100 000 GPU y seguía creciendo. Gracias a avances de software como su modelo LLama, Meta prevé un asombroso aumento de diez veces en el tamaño de sus clústeres en el futuro próximo.

Meta inició el proyecto Catalina en estrecha colaboración con NVIDIA, utilizando la solución de GPU NVL72 como elemento fundamental. Se realizaron modificaciones para adaptar el sistema a sus requisitos específicos, y ambas compañías aportaron diseños de referencia para MGX y NVL72 a un marco de código abierto, lo que permitió una amplia accesibilidad en el sitio web del Open Compute Project.

El sistema Catalina representa las implementaciones de vanguardia de Meta en sus centros de datos, donde cada configuración del sistema se denomina «pod».Este diseño modular permite la rápida escalabilidad de los sistemas al duplicar el marco básico.


Una característica distintiva del diseño NVL72 personalizado de Meta son sus dos racks de TI, cada uno de los cuales forma un único dominio de escalado vertical de 72 GPU. Se mantiene la consistencia en la configuración de ambos racks, que albergan 18 bandejas de cómputo ubicadas entre las secciones superior e inferior, junto con nueve conmutadores NV a cada lado. La integración de cableado redundante es crucial para unificar los recursos de GPU en ambos racks, estableciendo así un único dominio de cómputo.

Cada rack también admite grandes unidades de refrigeración líquida asistida por aire (ALC), diseñadas para facilitar operaciones de alta densidad de potencia. Esta configuración permite a Meta implementar eficientemente sistemas de refrigeración líquida en centros de datos de Norteamérica y del mundo.

Con estos racks duales, Meta puede duplicar eficazmente la cantidad de CPU y maximizar la capacidad de memoria, permitiendo hasta 34 TB de memoria LPDDR por rack, logrando así un total combinado de 48 TB de memoria coherente con la caché, accesible tanto para GPU como para CPU. Las fuentes de alimentación (PSU) funcionan con 480 o 277 voltios monofásicos, convirtiéndose en 48 voltios de CC, que alimentan todos los servidores blade, dispositivos de red y conmutadores NV de la arquitectura.





Además, la configuración incluye un estante para fuente de alimentación tanto en la parte superior como en la inferior de cada rack, complementado con unidades adicionales en la base. Meta ha implementado un panel de ruta de fibra especializado que gestiona todo el cableado de fibra interno conectado a la red backend, garantizando una conectividad fluida con los conmutadores de punto final que facilitan el dominio de escalado.

Para respaldar la robusta infraestructura, Meta ha integrado tecnologías avanzadas inherentes al sistema NVIDIA NVL72 GB200 Blackwell, junto con mejoras únicas como fuentes de alimentación y blades de alta capacidad. Los sistemas de refrigeración líquida, junto con el controlador de gestión de racks (RMC), garantizan una gestión eficiente de los protocolos de refrigeración, a la vez que monitorizan la presencia de fugas.






Esta destacada implementación del OpenRack v3 de alta capacidad de Meta mejora la asignación de energía dentro de los racks hasta alcanzar los considerables 94 kW a 600 A, lo que lo hace compatible con instalaciones avanzadas con sistemas de refrigeración líquida integrados. La gestión eficiente de este flujo de líquido la realiza el RMC, que monitoriza diversos componentes del rack para detectar posibles fugas, a la vez que orquesta el funcionamiento óptimo de los sistemas de refrigeración.

Además, la adopción por parte de Meta de una estructura programada desagregada permite la interconexión de múltiples módulos dentro de una única instalación de datos, lo que facilita un modelo escalable que conecta fácilmente varios edificios. Esta infraestructura está diseñada para aplicaciones de IA, lo que mejora la comunicación entre GPU y la flexibilidad general del sistema.
Deja una respuesta