CoreWeave atinge 6 vezes mais throughput de GPU em comparação com NVIDIA GB300 NVL72 e H100 no DeepSeek R1

CoreWeave atinge 6 vezes mais throughput de GPU em comparação com NVIDIA GB300 NVL72 e H100 no DeepSeek R1

O recém-lançado superchip NVIDIA Blackwell AI, conhecido como GB300, supera significativamente seu antecessor, a GPU H100, ao otimizar o paralelismo do tensor para fornecer desempenho de transferência muito melhorado.

NVIDIA GB300: Memória e largura de banda aprimoradas, alcançando rendimento superior ao H100

A introdução dos superchips de IA da NVIDIA com tecnologia Blackwell marca um avanço fundamental na tecnologia de GPU. O GB300 representa o produto mais avançado da NVIDIA até o momento, apresentando melhorias notáveis ​​em recursos computacionais, além de maior capacidade de memória e largura de banda. Essas melhorias são cruciais para gerenciar tarefas de IA exigentes. Um benchmark recente realizado pela CoreWeave ilustra o potencial do GB300 — ele atinge uma taxa de transferência significativamente maior por meio da redução do paralelismo tensorial.

Nos testes realizados pela CoreWeave utilizando o modelo de raciocínio DeepSeek R1, uma estrutura complexa de IA, uma distinção notável surgiu entre as duas plataformas. A execução do modelo DeepSeek R1 exigiu um cluster de 16 GPUs NVIDIA H100, enquanto apenas quatro GPUs GB300 operando na infraestrutura NVIDIA GB300 NVL72 foram suficientes para concluir a mesma tarefa. Notavelmente, o sistema GB300 é capaz de fornecer 6 vezes a taxa de transferência bruta por GPU, ressaltando seu desempenho superior em cargas de trabalho complexas de IA em comparação com o H100.

Gráfico de referência: 4 GPUs GB300 superam 16 GPUs H100 em taxa de transferência de 6, 5 tokens/s.
Crédito da imagem: CoreWeave

Os resultados demonstram uma vantagem significativa para o GB300, que utiliza uma configuração simplificada de paralelismo tensor de 4 vias. Essa redução no paralelismo aprimora a comunicação entre GPUs, enquanto a capacidade de memória e a largura de banda superiores contribuem para melhorias substanciais de desempenho. A plataforma GB300 NVL72 se beneficia das interconexões NVLink e NVSwitch de alta largura de banda, facilitando trocas rápidas de dados entre GPUs.

Esse avanço tecnológico se traduz em benefícios tangíveis para os usuários, permitindo a geração mais rápida de tokens e latência reduzida, permitindo, assim, um escalonamento mais eficaz das operações de IA em ambientes corporativos. A CoreWeave destacou as especificações notáveis ​​do sistema em escala de rack NVIDIA GB300 NVL72, que possui impressionantes 37 TB de capacidade de memória (com potencial para suportar até 40 TB), ideal para gerenciar modelos de IA grandes e complexos, complementados por recursos de interconexão que alcançam até 130 TB/s de largura de banda de memória.

Especificações do NVIDIA GB300 NVL72: GPUs, CPUs, largura de banda de memória, desempenho de núcleos tensores.

Em última análise, o NVIDIA GB300 vai além de simplesmente entregar TFLOPs impressionantes; ele enfatiza a eficiência nas operações. Ao minimizar o paralelismo tensorial, o GB300 reduz a sobrecarga de comunicação entre GPUs, o que normalmente dificulta processos de treinamento e inferência de IA em larga escala. Como resultado, as empresas agora podem atingir uma taxa de transferência significativamente maior com menos GPUs, resultando em redução de custos e maior escalabilidade em suas implementações de IA.

Fonte de notícias: CoreWeave

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *