O sistema Catalina Pod AI da Meta integra NVIDIA Blackwell GB200 NVL72, Open Rack v3 e tecnologia avançada de resfriamento líquido

O sistema Catalina Pod AI da Meta integra NVIDIA Blackwell GB200 NVL72, Open Rack v3 e tecnologia avançada de resfriamento líquido

A Meta revelou detalhes importantes sobre seu inovador sistema Catalina AI, que aproveita a tecnologia GB200 NVL72 da NVIDIA, juntamente com avanços nos sistemas Open Rack v3 e de resfriamento líquido.

Revolucionando Data Centers: Plataforma NVIDIA GB200 NVL72 Blackwell personalizada da Meta para o Catalina Pod

Em 2022, o foco da Meta foi principalmente em clusters de GPU, que normalmente compreendiam cerca de 6.000 unidades, voltados principalmente para suportar algoritmos tradicionais de classificação e recomendação. Esses clusters normalmente operavam com cargas que variavam de 128 a 512 GPUs. No entanto, uma transformação notável ocorreu no último ano, impulsionada pelo crescimento explosivo da IA ​​Generativa (GenAI) e dos modelos de grandes linguagens (LLMs).

Crescimento do tamanho do cluster de IA por ano

Hoje, os clusters de GPU da Meta expandiram-se para uma escala impressionante de 16.000 a 24.000 GPUs, representando um aumento de quatro vezes. Desde o ano passado, a empresa opera mais de 100.000 GPUs e continua a expandir-se. Com avanços em software, como o modelo LLama, a Meta prevê um aumento impressionante de dez vezes no tamanho dos seus clusters num futuro próximo.

Colaboração entre Meta, NVIDIA e Open Compute Project

A Meta iniciou o projeto Catalina em estreita colaboração com a NVIDIA, utilizando a solução de GPU NVL72 como elemento fundamental. Foram feitas alterações para adaptar o sistema às suas necessidades específicas, e ambas as empresas contribuíram com designs de referência para MGX e NVL72 para uma estrutura de código aberto, permitindo amplo acesso no site do Open Compute Project.

Racks de TI para Data Center

O sistema Catalina representa as implantações de ponta da Meta em seus data centers, onde cada configuração de sistema é denominada “pod”.Esse design modular permite a rápida escalabilidade dos sistemas ao duplicar a estrutura básica.

Configuração do sistema NVIDIA MGX GB200
Configuração do Meta Catalina com CPU Grace

Um diferencial do design personalizado do NVL72 da Meta são seus dois racks de TI, cada um formando um único domínio de escalabilidade de 72 GPUs. A consistência é mantida na configuração de ambos os racks, que abrigam 18 bandejas de computação posicionadas entre as seções superior e inferior, juntamente com nove switches NV em cada lado. A integração de cabeamento redundante é fundamental para unificar os recursos de GPU em ambos os racks, estabelecendo efetivamente um único domínio de computação.

Comparação de recursos NVIDIA e Meta GB200 NVL72

Cada rack também acomoda grandes unidades de resfriamento líquido assistido por ar (ALC), projetadas para facilitar operações de alta densidade de potência. Essa configuração permite que a Meta implemente com eficiência sistemas de resfriamento líquido em data centers na América do Norte e no mundo todo.

Visão geral da arquitetura Catalina

Com esses racks duplos, a Meta pode efetivamente dobrar a contagem de CPUs e maximizar a capacidade de memória, permitindo até 34 TB de memória LPDDR por rack, alcançando assim um total combinado de 48 TB de memória com cache coerente, acessível tanto por GPUs quanto por CPUs. As unidades de fonte de alimentação (PSUs) operam em 480 volts ou 277 volts monofásicos, convertendo para 48 volts CC, que alimenta todos os blades de servidor, dispositivos de rede e switches NV dentro da arquitetura.

Implantação de rack de alta potência
Sistemas de resfriamento de data center
Sistema de Detecção de Vazamentos em Data Center
Rede de Fabric Agendada Desagregada Otimizada por IA
Configuração de rede de GPU com interconexões Catalina

Além disso, a configuração conta com uma prateleira para fonte de alimentação na parte superior e inferior de cada rack, complementada por unidades adicionais na base. A Meta implementou um painel de caminho de fibra especializado que gerencia todo o cabeamento interno de fibra conectado à rede de backend, garantindo conectividade estável com os switches de ponta que facilitam o domínio de expansão.

Esquema da bandeja de computação

Para dar suporte à infraestrutura robusta, a Meta integrou tecnologias avançadas inerentes ao sistema NVIDIA NVL72 GB200 Blackwell, juntamente com aprimoramentos exclusivos, como fontes de alimentação e blades de alta capacidade. Os sistemas de resfriamento líquido, juntamente com o controlador de gerenciamento de rack (RMC), garantem que os protocolos de resfriamento sejam gerenciados com eficiência, monitorando simultaneamente vazamentos.

Placa Meta vs Nvidia GB200 Referência
Close-up da placa de circuito PDB
Diagrama de distribuição de energia
Close-up da placa de hardware DC-SCM
Diagrama de Design e Conectividade do RMC
Gráfico de detecção de vazamento

Esta implantação marcante do OpenRack v3 de alta capacidade da Meta aumenta a alocação de energia dentro dos racks para substanciais 94 kW a 600 A, tornando-o compatível com instalações avançadas com sistemas de refrigeração líquida integrados. O gerenciamento desse fluxo de líquido é realizado de forma eficiente pelo RMC, que monitora vários componentes dentro do rack em busca de possíveis vazamentos, orquestrando simultaneamente a operação ideal dos sistemas de refrigeração.

Diagrama de Arquitetura da Bandeja de Computação

Além disso, a adoção de uma estrutura programada desagregada pela Meta permite a interconexão de vários pods dentro de uma única instalação de dados, facilitando um modelo escalável que pode conectar vários edifícios perfeitamente. Essa infraestrutura é adaptada para aplicações de IA, aprimorando a comunicação entre GPUs e a flexibilidade geral do sistema.

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *