A NVIDIA RTX PRO 6000 de 96 GB supera quatro RTX 5090 em um modelo de IA de 230 bilhões de quadros, consumindo apenas 25% menos energia.

A RTX Pro 6000 Blackwell da NVIDIA demonstra que uma única GPU pode superar as configurações tradicionais com múltiplas GPUs, principalmente no contexto da execução de modelos de IA complexos. Notavelmente, ela apresentou desempenho superior ao de quatro RTX 5090.

Uma única GPU RTX PRO 6000 Blackwell executa um modelo de IA de 230 bits usando um quarto da energia em comparação com quatro RTX 5090.

A pesquisa conduzida por Steveibe no projeto X destaca a viabilidade de operar grandes modelos de IA em ambientes domésticos. Utilizando o MiniMax M2.7, um modelo de inferência de IA com 230 bilhões de parâmetros, os testes foram realizados em quatro configurações com GPUs NVIDIA, utilizando um tamanho de contexto de 32k e um comprimento máximo de token de 4096.

O MiniMax M2.7 tem parâmetros de 230 bytes. Será que você consegue rodá-lo em casa? Testei o UD-IQ3_XXS (80 GB) da Unsloth em 4 configurações diferentes: 🟠 4x RTX 4090 (96 GB): 71, 52 tok/s, TTFT 1045 ms 🟢 4x RTX 5090 (128 GB): 120, 54 tok/s, TTFT 725 ms 🟡 1x RTX PRO 6000 (96 GB): 118, 74 tok/s, TTFT 765 ms 🟣 DGX… pic.twitter.com/yK8bGg6RtX

— stevibe (@stevibe) 18 de abril de 2026

Durante os testes de desempenho, foi utilizado o método de quantização IQ3_XXS, um método GGUF que se adapta a configurações com menos VRAM. Essa quantização específica foi escolhida por utilizar ao máximo os 96 GB de VRAM da GPU RTX PRO 6000. Abaixo estão os resultados de desempenho das diferentes configurações:

4x RTX 4090 (96 GB): 71, 52 tokens/segundo, TTFT 1045 ms
4x RTX 5090 (128 GB): 120, 54 tokens/segundo, TTFT 725 ms
1x RTX PRO 6000 (96 GB): 118, 74 tokens/segundo, TTFT 765 ms
DGX Spark (128 GB): 24, 41 tokens/segundo, TTFT 741 ms

A placa de vídeo NVIDIA RTX PRO 6000 Blackwell, com uma única GPU, alcançou a notável velocidade de 118, 74 tokens/segundo, quase igualando o desempenho de quatro RTX 5090, que atingiram 120, 54 tokens/segundo. A configuração mais antiga com quatro GPUs RTX 4090 apresentou um desempenho significativamente inferior, com 71, 52 tokens/segundo. Em contraste, o DGX Spark Mini AI PC, com 128 GB de memória, ficou para trás com 24, 41 tokens/segundo.

Gráfico comparativo de desempenho de múltiplas configurações de GPU na velocidade de geração de tokens de IA

Embora a velocidade de geração de tokens seja favorável para a RTX PRO 6000 Blackwell e a RTX 5090, é fundamental considerar fatores adicionais, como consumo de energia e custo.

Comparação de consumo de energia

Uma distinção clara surge ao examinar o consumo de energia nessas configurações:

4x RTX 4090: Consumo máximo de energia de 1.800 W (450 W por GPU)
4x RTX 5090: Consumo máximo de energia de 2.300 W (575 W por GPU)
1x RTX PRO 6000: Consumo máximo de energia de apenas 600W
DGX Spark: Potência total do sistema de 240 W

Isso indica que uma única RTX PRO 6000 consome apenas um quarto da energia de um conjunto de quatro RTX 5090 e cerca de um terço da energia de um conjunto de quatro RTX 4090. O DGX Spark, apesar de sua menor capacidade de energia, funciona eficientemente como uma solução completa de sistema.

Visão geral de preços

Em termos financeiros, os custos dessas GPUs são bastante expressivos. A RTX PRO 6000 Blackwell custa cerca de US$ 9.500, enquanto uma única RTX 5090 custa aproximadamente US$ 3.500, totalizando US$ 14.000 por quatro unidades. A DGX Spark está atualmente à venda por US$ 4.699, após um reajuste de preço.

Preço médio de varejo da RTX 4090: US$ 3.000 (por GPU)
Preço médio de varejo da RTX 5090: US$ 3.500 (por GPU)
Preço médio de varejo da RTX PRO 6000: US$ 9.500 (por GPU)
Preço médio de varejo do PC DGX Spark AI: US$ 4.699

Embora várias GPUs possam aprimorar o desempenho de modelos de IA e aproveitar mais memória, elas também podem introduzir sobrecarga no sistema, afetando a eficiência geral. Em contrapartida, a RTX PRO 6000 Blackwell, com sua configuração de 96 GB, consegue oferecer desempenho superior, proporcionando uma solução mais eficiente e econômica para cargas de trabalho de IA exigentes.

Fonte e imagens