
A NVIDIA conduziu recentemente uma análise aprofundada de seus sistemas Blackwell GB200 e GB300, com foco em seus designs arquitetônicos, racks, bandejas e integração com o Open Compute Project (OCP).
NVIDIA revela arquiteturas Blackwell e contribuições de computação aberta no Hot Chips 2025
No evento Hot Chips 2025, a NVIDIA expandiu sua visão para soluções de computação aprimoradas com o lançamento da plataforma Blackwell Ultra, após o lançamento bem-sucedido de seus primeiros servidores Blackwell no ano passado. O engenheiro mecânico John Norton liderou uma apresentação abrangente que analisou os sistemas GB200 e GB300 como parte do compromisso da NVIDIA com padrões computacionais abertos.
A apresentação começou com uma visão geral detalhada da arquitetura MGX, que a NVIDIA contribuiu para o OCP no ano anterior. Norton discutiu os vários obstáculos encontrados durante o desenvolvimento dos modelos GB200 e GB300, destacando a versatilidade necessária para uma gama de aplicações além de IA e inferência.

A arquitetura MGX foi projetada especificamente para lidar com as complexidades do escalonamento de aceleradores para diversas cargas de trabalho globalmente. As necessidades dos clientes variavam, desde requisitos de rede exclusivos até combinações personalizadas de CPU e GPU. Consequentemente, a NVIDIA implementou uma abordagem iterativa para o desenvolvimento de sistemas, reconhecendo que pequenos ajustes poderiam ter implicações significativas em todos os níveis. Essa constatação levou ao estabelecimento da arquitetura modular MGX.
Ao segmentar o sistema em componentes menores e interoperáveis, a NVIDIA permite que os clientes modifiquem elementos individuais sem precisar reformular todo o sistema. Essa abordagem inovadora não apenas otimiza os investimentos iniciais, mas também promove uma plataforma flexível e aberta por meio do OCP, incentivando personalizações orientadas pelo cliente.

Norton analisou ainda dois componentes essenciais da estrutura MGX: a infraestrutura de rack MGX e as bandejas de computação e switch MGX, fundamentais na montagem dos sistemas GB200 “Blackwell”.O uso de padrões de design abertos pela NVIDIA permite transparência e acessibilidade. Eles fornecem modelos e especificações abrangentes disponíveis para download via OCP.

Durante a apresentação, a NVIDIA compartilhou especificações de alto nível das plataformas GB200 e GB300. O design do rack inclui interruptores na parte superior, seguidos por uma fonte de alimentação que converte a alta tensão CA do data center em CC para distribuição por todo o sistema.

A configuração GB200 incorpora 300 chips em 10 bandejas de computação, complementadas por nove bandejas de switch e outras oito bandejas de computação. Impressionantemente, cada bandeja de computação pode fornecer 80 Petaflops FP4, contribuindo para um desempenho geral de 1, 4 Exaflops. O consumo de energia do sistema completo é de aproximadamente 120 quilowatts, com cada bandeja de computação utilizando cerca de 7 quilowatts, interconectada pelo NVLink.

O NVLink opera a impressionantes 200 Gb/s por via, facilitando comunicações de baixa latência entre bandejas de GPU e bandejas de switch. Esta interconexão de cobre destaca as vantagens das propriedades do cobre para transferência de dados em alta largura de banda.

A NVIDIA também introduziu sua abordagem para especificações de rack. Ao implantar dispositivos em um espaçamento de 48 milímetros — um pouco mais estreito do que o espaçamento tradicional de 44, 5 milímetros usado em hardware corporativo padrão — a empresa maximiza a densidade de nós em seus racks, gerando inúmeras vantagens operacionais.

Um projeto de barramento atualizado, capaz de suportar aproximadamente 35 quilowatts, também foi abordado e expandido para suportar até 1.400 amperes por meio de seção transversal de cobre aprimorada, facilitando maiores requisitos de energia.

Cada bandeja de computação integra duas CPUs e quatro GPUs, incorporando um Módulo Host-Processador (HPM) com suporte para uma CPU Grace e duas GPUs Blackwell. O design inovador permite opções de conectividade flexíveis, garantindo uma integração perfeita dos sistemas de E/S.

As bandejas também apresentam configurações personalizáveis para várias soluções de resfriamento e opções de gerenciamento de cabos, enfatizando a modularidade da plataforma para aplicações específicas.

A parte traseira da bandeja do computador é equipada com desconexões rápidas universais (UQDs), que são padronizadas pelo OCP e oferecem suporte completo ao resfriamento líquido para maior eficiência.

Em conclusão, a NVIDIA confirmou que os sistemas GB200 e GB300 estão em plena produção, implantados em diversos data centers de hiperescala em todo o mundo. Eles continuam a inovar anualmente, aprimorando a densidade, a eficiência energética e as soluções de resfriamento, com iniciativas como o NVLink Fusion, que prometem avanços significativos em recursos de processamento de dados.
Deixe um comentário