GPU NVIDIA Blackwell Ultra “GB300”: revelando o chip de IA mais rápido com retículo duplo, mais de 20 mil núcleos, 288 GB de memória HBM3e a 8 TB/s, 50% mais rápido que o GB200

A NVIDIA revelou seu chip de IA de ponta, o Blackwell Ultra GB300, ostentando uma notável melhoria de desempenho de 50% em relação ao seu antecessor, o GB200, e impressionantes 288 GB de memória.

Apresentando o Blackwell Ultra “GB300” da NVIDIA: um chip de IA revolucionário

Recentemente, a NVIDIA publicou um artigo detalhado descrevendo as especificações e os recursos do Blackwell Ultra GB300. Este chip de última geração já está em produção em massa, sendo fornecido a clientes selecionados. O Blackwell Ultra representa uma melhoria significativa em desempenho e recursos em comparação com os modelos Blackwell anteriores.

Estabelecendo paralelos com a série Super da NVIDIA, que aprimorou as placas de vídeo game RTX originais, a série Ultra aprimora as ofertas anteriores de chips de IA. Embora linhas anteriores, como Hopper e Volta, não tivessem os recursos Ultra, seus avanços lançaram as bases para as inovações atuais. Além disso, melhorias substanciais também estão disponíveis para modelos não Ultra por meio de atualizações de software e esforços de otimização.

Diagrama da GPU NVIDIA Blackwell Ultra mostrando especificações detalhadas de arquitetura e conectividade.

O Blackwell Ultra GB300 é uma iteração avançada que combina dois chips do tamanho de um retículo conectados pela interface NV-HBI de alta largura de banda da NVIDIA, operando como uma GPU unificada. Construído com a tecnologia de processo 4NP da TSMC (uma versão otimizada de seu nó de 5 nm), o chip abriga impressionantes 208 bilhões de transistores e oferece desempenho extraordinário com uma largura de banda de 10 TB/s entre os dois chips.

Diagrama da arquitetura do multiprocessador NVIDIA Streaming com núcleos CUDA e tensor.

A GPU é equipada com 160 multiprocessadores de streaming (SMs), com um total de 128 núcleos CUDA cada. Inclui quatro núcleos Tensor de 5ª geração, que suportam computação de precisão FP8, FP6 e NVFP4. Esse design resulta em um total combinado de 20.480 núcleos CUDA e 640 núcleos Tensor, além de 40 MB de memória Tensor (TMEM).

Recurso	Funil	Blackwell	Blackwell Ultra
Processo de fabricação	TSMC 4N	TSMC 4NP	TSMC 4NP
Transistores	80B	208B	208B
Dados por GPU	1	2	2
NVFP4 denso \| desempenho esparso	–	10 \| 20 PetaFLOPS	15 \| 20 PetaFLOPS
FP8 denso \| desempenho esparso	2 \| 4 PetaFLOPS	5 \| 10 PetaFLOPS	5 \| 10 PetaFLOPS
Aceleração da atenção (SFU EX2)	4, 5 TeraExponenciais/s	5 TeraExponenciais/s	10, 7 TeraExponenciais/s
Capacidade máxima de HBM	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
Largura de banda máxima HBM	3, 35 TB/s (H100) 4, 8 TB/s (H200)	8 TB/s	8 TB/s
Largura de banda NVLink	900 GB/s	1.800 GB/s	1.800 GB/s
Potência máxima (TGP)	Até 700W	Até 1.200 W	Até 1.400 W

As inovações nos núcleos Tensor de 5ª geração são cruciais para as computações de IA. A NVIDIA tem aprimorado consistentemente esses núcleos, resultando em:

NVIDIA Volta: introduziu unidades MMA de 8 threads e suporte para cálculos FP16.
NVIDIA Ampere: aprimorado com MMA de distorção completa, BF16 e TensorFloat-32.
NVIDIA Hopper: introduziu o Warp-group MMA em 128 threads e o Transformer Engine com suporte a FP8.
NVIDIA Blackwell: Destaque para o Transformer Engine de 2ª geração com recursos aprimorados de computação FP8 e FP6.

Comparação de memória de GPU: Hopper H100 80 GB, Hopper H200 141 GB, Blackwell 192 GB, Blackwell Ultra 288 GB.

O chip Blackwell Ultra aumenta significativamente a capacidade de memória, aumentando de um máximo de 192 GB nos modelos Blackwell GB200 para impressionantes 288 GB no HBM3e. Esse salto permite o suporte a modelos de IA com vários trilhões de parâmetros. Sua arquitetura de memória compreende oito pilhas com um controlador de 512 bits operando a 8 TB/s, permitindo:

Acomodação completa do modelo: capacidade de lidar com mais de 300 bilhões de modelos de parâmetros sem descarregar memória.
Comprimentos de contexto estendidos: Capacidade de cache KV aprimorada para aplicações de transformadores.
Eficiência computacional aprimorada: maiores proporções de computação para memória para diversas cargas de trabalho.

Gráfico de barras comparando os níveis de desempenho da GPU Dense FP8 e NVFP4.

A arquitetura Blackwell apresenta interconexões robustas, incluindo NVLINK, NVLINK-C2C e uma interface PCIe Gen6 x16, oferecendo as seguintes especificações:

Largura de banda por GPU: 1, 8 TB/s bidirecional (18 links x 100 GB/s).
Melhoria de desempenho: aumento de 2x em relação ao NVLink 4 (comparado ao Hopper).
Topologia máxima: suporta até 576 GPUs em uma malha de computação não bloqueante.
Integração em escala de rack: permite configurações de 72 GPUs com largura de banda agregada de 130 TB/s.

Interface PCIe: Gen6 com 16 pistas fornecendo taxa de transferência bidirecional de 256 GB/s.
NVLink-C2C: Facilita a comunicação entre CPU e GPU com coerência de memória a 900 GB/s.

Interconexão	GPU Hopper	GPU Blackwell	GPU Blackwell Ultra
NVLink (GPU-GPU)	900	1.800	1.800
NVLink-C2C (CPU-GPU)	900	900	900
Interface PCIe	128 (Gn 5)	256 (Gn 6)	256 (Gn 6)

O Blackwell Ultra GB300 da NVIDIA alcança um aumento notável de 50% na saída de computação densa de baixa precisão com a adoção do novo padrão NVFP4, oferecendo precisão próxima à do FP8 com discrepâncias mínimas (menos de 1%).Esse avanço também reduz os requisitos de memória em até 1, 8x em comparação ao FP8 e 3, 5x em comparação ao FP16.

Diagrama do mecanismo de atenção do cache Blackwell KV com indicadores em lote MatMul, Softmax e aceleração.

O Blackwell Ultra também integra gerenciamento sofisticado de agendamento junto com recursos de segurança de nível empresarial, incluindo:

Mecanismo GigaThread aprimorado: um agendador avançado que otimiza a distribuição da carga de trabalho, melhorando o desempenho de troca de contexto em todos os 160 SMs.
GPU multi-instância (MIG): capacidade de particionar GPUs em várias instâncias MIG, permitindo alocações de memória personalizadas para multilocação segura.
Computação confidencial: provisões para manuseio seguro de modelos de IA sensíveis, aproveitando o Trusted Execution Environment (TEE) baseado em hardware e operações NVLink seguras sem perda significativa de desempenho.
Advanced NVIDIA Remote Attestation Service (RAS): um sistema de monitoramento orientado por IA que aumenta a confiabilidade ao prever falhas e otimizar a manutenção.

A eficiência de desempenho melhora significativamente com o Blackwell Ultra GB300, proporcionando TPS/MW superior em comparação ao GB200, conforme ilustrado nos gráficos a seguir:

Gráfico do impacto da arquitetura no desempenho da inferência e na simulação da experiência do usuário na fronteira de Pareto.

Gráfico sobre o impacto da arquitetura de IA no desempenho de inferência e na experiência do usuário na Pareto Frontier.

Em resumo, a NVIDIA continua a liderar em tecnologia de IA, exemplificada pelas arquiteturas Blackwell e Blackwell Ultra. Seu compromisso com o aprimoramento do suporte e das otimizações de software garante uma forte vantagem competitiva, respaldada por pesquisa e desenvolvimento contínuos que prometem mantê-la na vanguarda do setor pelos próximos anos.

Fonte e Imagens