
A NVIDIA revelou seu chip de IA de ponta, o Blackwell Ultra GB300, ostentando uma notável melhoria de desempenho de 50% em relação ao seu antecessor, o GB200, e impressionantes 288 GB de memória.
Apresentando o Blackwell Ultra “GB300” da NVIDIA: um chip de IA revolucionário
Recentemente, a NVIDIA publicou um artigo detalhado descrevendo as especificações e os recursos do Blackwell Ultra GB300. Este chip de última geração já está em produção em massa, sendo fornecido a clientes selecionados. O Blackwell Ultra representa uma melhoria significativa em desempenho e recursos em comparação com os modelos Blackwell anteriores.

Estabelecendo paralelos com a série Super da NVIDIA, que aprimorou as placas de vídeo game RTX originais, a série Ultra aprimora as ofertas anteriores de chips de IA. Embora linhas anteriores, como Hopper e Volta, não tivessem os recursos Ultra, seus avanços lançaram as bases para as inovações atuais. Além disso, melhorias substanciais também estão disponíveis para modelos não Ultra por meio de atualizações de software e esforços de otimização.

O Blackwell Ultra GB300 é uma iteração avançada que combina dois chips do tamanho de um retículo conectados pela interface NV-HBI de alta largura de banda da NVIDIA, operando como uma GPU unificada. Construído com a tecnologia de processo 4NP da TSMC (uma versão otimizada de seu nó de 5 nm), o chip abriga impressionantes 208 bilhões de transistores e oferece desempenho extraordinário com uma largura de banda de 10 TB/s entre os dois chips.

A GPU é equipada com 160 multiprocessadores de streaming (SMs), com um total de 128 núcleos CUDA cada. Inclui quatro núcleos Tensor de 5ª geração, que suportam computação de precisão FP8, FP6 e NVFP4. Esse design resulta em um total combinado de 20.480 núcleos CUDA e 640 núcleos Tensor, além de 40 MB de memória Tensor (TMEM).
Recurso | Funil | Blackwell | Blackwell Ultra |
---|---|---|---|
Processo de fabricação | TSMC 4N | TSMC 4NP | TSMC 4NP |
Transistores | 80B | 208B | 208B |
Dados por GPU | 1 | 2 | 2 |
NVFP4 denso | desempenho esparso | – | 10 | 20 PetaFLOPS | 15 | 20 PetaFLOPS |
FP8 denso | desempenho esparso | 2 | 4 PetaFLOPS | 5 | 10 PetaFLOPS | 5 | 10 PetaFLOPS |
Aceleração da atenção (SFU EX2) | 4, 5 TeraExponenciais/s | 5 TeraExponenciais/s | 10, 7 TeraExponenciais/s |
Capacidade máxima de HBM | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | 288 GB HBM3E |
Largura de banda máxima HBM | 3, 35 TB/s (H100) 4, 8 TB/s (H200) | 8 TB/s | 8 TB/s |
Largura de banda NVLink | 900 GB/s | 1.800 GB/s | 1.800 GB/s |
Potência máxima (TGP) | Até 700W | Até 1.200 W | Até 1.400 W |
As inovações nos núcleos Tensor de 5ª geração são cruciais para as computações de IA. A NVIDIA tem aprimorado consistentemente esses núcleos, resultando em:
- NVIDIA Volta: introduziu unidades MMA de 8 threads e suporte para cálculos FP16.
- NVIDIA Ampere: aprimorado com MMA de distorção completa, BF16 e TensorFloat-32.
- NVIDIA Hopper: introduziu o Warp-group MMA em 128 threads e o Transformer Engine com suporte a FP8.
- NVIDIA Blackwell: Destaque para o Transformer Engine de 2ª geração com recursos aprimorados de computação FP8 e FP6.

O chip Blackwell Ultra aumenta significativamente a capacidade de memória, aumentando de um máximo de 192 GB nos modelos Blackwell GB200 para impressionantes 288 GB no HBM3e. Esse salto permite o suporte a modelos de IA com vários trilhões de parâmetros. Sua arquitetura de memória compreende oito pilhas com um controlador de 512 bits operando a 8 TB/s, permitindo:
- Acomodação completa do modelo: capacidade de lidar com mais de 300 bilhões de modelos de parâmetros sem descarregar memória.
- Comprimentos de contexto estendidos: Capacidade de cache KV aprimorada para aplicações de transformadores.
- Eficiência computacional aprimorada: maiores proporções de computação para memória para diversas cargas de trabalho.

A arquitetura Blackwell apresenta interconexões robustas, incluindo NVLINK, NVLINK-C2C e uma interface PCIe Gen6 x16, oferecendo as seguintes especificações:
- Largura de banda por GPU: 1, 8 TB/s bidirecional (18 links x 100 GB/s).
- Melhoria de desempenho: aumento de 2x em relação ao NVLink 4 (comparado ao Hopper).
- Topologia máxima: suporta até 576 GPUs em uma malha de computação não bloqueante.
- Integração em escala de rack: permite configurações de 72 GPUs com largura de banda agregada de 130 TB/s.
- Interface PCIe: Gen6 com 16 pistas fornecendo taxa de transferência bidirecional de 256 GB/s.
- NVLink-C2C: Facilita a comunicação entre CPU e GPU com coerência de memória a 900 GB/s.
Interconexão | GPU Hopper | GPU Blackwell | GPU Blackwell Ultra |
---|---|---|---|
NVLink (GPU-GPU) | 900 | 1.800 | 1.800 |
NVLink-C2C (CPU-GPU) | 900 | 900 | 900 |
Interface PCIe | 128 (Gn 5) | 256 (Gn 6) | 256 (Gn 6) |
O Blackwell Ultra GB300 da NVIDIA alcança um aumento notável de 50% na saída de computação densa de baixa precisão com a adoção do novo padrão NVFP4, oferecendo precisão próxima à do FP8 com discrepâncias mínimas (menos de 1%).Esse avanço também reduz os requisitos de memória em até 1, 8x em comparação ao FP8 e 3, 5x em comparação ao FP16.

O Blackwell Ultra também integra gerenciamento sofisticado de agendamento junto com recursos de segurança de nível empresarial, incluindo:
- Mecanismo GigaThread aprimorado: um agendador avançado que otimiza a distribuição da carga de trabalho, melhorando o desempenho de troca de contexto em todos os 160 SMs.
- GPU multi-instância (MIG): capacidade de particionar GPUs em várias instâncias MIG, permitindo alocações de memória personalizadas para multilocação segura.
- Computação confidencial: provisões para manuseio seguro de modelos de IA sensíveis, aproveitando o Trusted Execution Environment (TEE) baseado em hardware e operações NVLink seguras sem perda significativa de desempenho.
- Advanced NVIDIA Remote Attestation Service (RAS): um sistema de monitoramento orientado por IA que aumenta a confiabilidade ao prever falhas e otimizar a manutenção.
A eficiência de desempenho melhora significativamente com o Blackwell Ultra GB300, proporcionando TPS/MW superior em comparação ao GB200, conforme ilustrado nos gráficos a seguir:




Em resumo, a NVIDIA continua a liderar em tecnologia de IA, exemplificada pelas arquiteturas Blackwell e Blackwell Ultra. Seu compromisso com o aprimoramento do suporte e das otimizações de software garante uma forte vantagem competitiva, respaldada por pesquisa e desenvolvimento contínuos que prometem mantê-la na vanguarda do setor pelos próximos anos.
Deixe um comentário