NVIDIA revela insights técnicos sobre racks e bandejas NVL Blackwell GB200 e GB300 e iniciativas de computação aberta da MGX

NVIDIA revela insights técnicos sobre racks e bandejas NVL Blackwell GB200 e GB300 e iniciativas de computação aberta da MGX

A NVIDIA conduziu recentemente uma análise aprofundada de seus sistemas Blackwell GB200 e GB300, com foco em seus designs arquitetônicos, racks, bandejas e integração com o Open Compute Project (OCP).

NVIDIA revela arquiteturas Blackwell e contribuições de computação aberta no Hot Chips 2025

No evento Hot Chips 2025, a NVIDIA expandiu sua visão para soluções de computação aprimoradas com o lançamento da plataforma Blackwell Ultra, após o lançamento bem-sucedido de seus primeiros servidores Blackwell no ano passado. O engenheiro mecânico John Norton liderou uma apresentação abrangente que analisou os sistemas GB200 e GB300 como parte do compromisso da NVIDIA com padrões computacionais abertos.

A apresentação começou com uma visão geral detalhada da arquitetura MGX, que a NVIDIA contribuiu para o OCP no ano anterior. Norton discutiu os vários obstáculos encontrados durante o desenvolvimento dos modelos GB200 e GB300, destacando a versatilidade necessária para uma gama de aplicações além de IA e inferência.

Estudo de caso da NVIDIA GB200/300 por John Norton, engenheiro mecânico. Apresentação de chips de alta performance de 2025.

A arquitetura MGX foi projetada especificamente para lidar com as complexidades do escalonamento de aceleradores para diversas cargas de trabalho globalmente. As necessidades dos clientes variavam, desde requisitos de rede exclusivos até combinações personalizadas de CPU e GPU. Consequentemente, a NVIDIA implementou uma abordagem iterativa para o desenvolvimento de sistemas, reconhecendo que pequenos ajustes poderiam ter implicações significativas em todos os níveis. Essa constatação levou ao estabelecimento da arquitetura modular MGX.

Ao segmentar o sistema em componentes menores e interoperáveis, a NVIDIA permite que os clientes modifiquem elementos individuais sem precisar reformular todo o sistema. Essa abordagem inovadora não apenas otimiza os investimentos iniciais, mas também promove uma plataforma flexível e aberta por meio do OCP, incentivando personalizações orientadas pelo cliente.

Introdução ao MGX: Arquitetura modular escalável centrada em GPU para soluções de computação acelerada.

Norton analisou ainda dois componentes essenciais da estrutura MGX: a infraestrutura de rack MGX e as bandejas de computação e switch MGX, fundamentais na montagem dos sistemas GB200 “Blackwell”.O uso de padrões de design abertos pela NVIDIA permite transparência e acessibilidade. Eles fornecem modelos e especificações abrangentes disponíveis para download via OCP.

Especificações de rack e bandeja de computação MGX com design modular para contribuições OCP.

Durante a apresentação, a NVIDIA compartilhou especificações de alto nível das plataformas GB200 e GB300. O design do rack inclui interruptores na parte superior, seguidos por uma fonte de alimentação que converte a alta tensão CA do data center em CC para distribuição por todo o sistema.

Layout de rack do sistema GB200/300 com coluna NVLINK e fontes de alimentação.

A configuração GB200 incorpora 300 chips em 10 bandejas de computação, complementadas por nove bandejas de switch e outras oito bandejas de computação. Impressionantemente, cada bandeja de computação pode fornecer 80 Petaflops FP4, contribuindo para um desempenho geral de 1, 4 Exaflops. O consumo de energia do sistema completo é de aproximadamente 120 quilowatts, com cada bandeja de computação utilizando cerca de 7 quilowatts, interconectada pelo NVLink.

Diagrama de visão geral do rack GB200/300, mostrando dimensões e recursos para implantação empresarial.

O NVLink opera a impressionantes 200 Gb/s por via, facilitando comunicações de baixa latência entre bandejas de GPU e bandejas de switch. Esta interconexão de cobre destaca as vantagens das propriedades do cobre para transferência de dados em alta largura de banda.

Diagrama do sistema NVLINK Spine e de resfriamento líquido para maior eficiência do data center.

A NVIDIA também introduziu sua abordagem para especificações de rack. Ao implantar dispositivos em um espaçamento de 48 milímetros — um pouco mais estreito do que o espaçamento tradicional de 44, 5 milímetros usado em hardware corporativo padrão — a empresa maximiza a densidade de nós em seus racks, gerando inúmeras vantagens operacionais.

Diagrama de 19 benefícios da RU para computação eficiente e densidade de cabeamento em data centers.

Um projeto de barramento atualizado, capaz de suportar aproximadamente 35 quilowatts, também foi abordado e expandido para suportar até 1.400 amperes por meio de seção transversal de cobre aprimorada, facilitando maiores requisitos de energia.

Diagrama de topologia PCIe da bandeja de computação NVIDIA GB200/300 NVL para conexão 2P:4GPU.

Cada bandeja de computação integra duas CPUs e quatro GPUs, incorporando um Módulo Host-Processador (HPM) com suporte para uma CPU Grace e duas GPUs Blackwell. O design inovador permite opções de conectividade flexíveis, garantindo uma integração perfeita dos sistemas de E/S.

Diagrama de bandejas de computação acelerada MGX com componentes rotulados.

As bandejas também apresentam configurações personalizáveis ​​para várias soluções de resfriamento e opções de gerenciamento de cabos, enfatizando a modularidade da plataforma para aplicações específicas.

Diagrama da bandeja de switches MGX Accelerated Computing Trays com destaques detalhados dos componentes.

A parte traseira da bandeja do computador é equipada com desconexões rápidas universais (UQDs), que são padronizadas pelo OCP e oferecem suporte completo ao resfriamento líquido para maior eficiência.

Evolução da arquitetura do data center com NVLINK Fusion e tecnologia de resfriamento avançada.

Em conclusão, a NVIDIA confirmou que os sistemas GB200 e GB300 estão em plena produção, implantados em diversos data centers de hiperescala em todo o mundo. Eles continuam a inovar anualmente, aprimorando a densidade, a eficiência energética e as soluções de resfriamento, com iniciativas como o NVLink Fusion, que prometem avanços significativos em recursos de processamento de dados.

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *