NVIDIA quebra a barreira de 1.000 TPS com GPUs Blackwell e Llama 4 Maverick da Meta para velocidades recordes de token

NVIDIA quebra a barreira de 1.000 TPS com GPUs Blackwell e Llama 4 Maverick da Meta para velocidades recordes de token

A NVIDIA fez um avanço significativo no desempenho da inteligência artificial (IA) com a introdução da arquitetura Blackwell. Essa inovação é amplamente atribuída a uma série de otimizações estratégicas e recursos de hardware aprimorados.

Avanços em Blackwell: Elevando o Desempenho da IA ​​para Modelos de Linguagem em Larga Escala

Expandindo continuamente os limites da IA, a NVIDIA tem feito progressos notáveis ​​com sua tecnologia Blackwell. Em uma publicação recente no blog, a empresa anunciou que atingiu a impressionante marca de 1.000 tokens por segundo (TP/S) usando um único nó DGX B200 equipado com oito GPUs NVIDIA Blackwell. Essa conquista foi alcançada durante o trabalho com o substancial modelo Llama 4 Maverick da Meta, com 400 bilhões de parâmetros, demonstrando o profundo impacto do ecossistema de IA da NVIDIA no setor.

Arquitetura NVIDIA Blackwell

Com essa configuração avançada, os servidores Blackwell da NVIDIA podem fornecer até 72.000 TP/s. Conforme destacado pelo CEO Jensen Huang durante sua palestra na Computex, as organizações estão mais motivadas do que nunca a apresentar seus avanços em IA, especialmente em termos de taxas de saída de tokens. Essa tendência indica o forte compromisso da NVIDIA em aprimorar esse aspecto específico do desenvolvimento de IA.

Alcançar essa velocidade revolucionária envolve otimizações significativas de software, notadamente por meio do TensorRT-LLM e de um modelo inovador de decodificação especulativa, resultando em uma aceleração quádrupla no desempenho. A equipe da NVIDIA analisa diversos elementos que contribuíram para o ajuste fino do Blackwell para modelos de linguagem de grande porte (LLMs) abrangentes. Uma inovação fundamental é o uso da decodificação especulativa, um método que emprega um modelo de “rascunho” ágil para prever vários tokens à frente, enquanto o modelo principal (maior) valida simultaneamente essas previsões.

A decodificação especulativa é uma técnica popular usada para acelerar a velocidade de inferência de LLMs sem comprometer a qualidade do texto gerado. Ela atinge esse objetivo ao fazer com que um modelo de “rascunho” menor e mais rápido preveja uma sequência de tokens especulativos, que são então verificados em paralelo pelo LLM “alvo” maior.

A aceleração vem da geração potencial de múltiplos tokens em uma iteração do modelo de destino ao custo de sobrecarga extra do modelo de rascunho.

– NVIDIA

Além disso, a NVIDIA implementou a arquitetura baseada em EAGLE3, uma estrutura focada em software projetada especificamente para aprimorar os processos de inferência para grandes modelos de linguagem, em vez de depender exclusivamente dos avanços em hardware de GPU. Com esses desenvolvimentos, a NVIDIA não apenas afirma sua posição de liderança no domínio da IA, mas também posiciona o Blackwell como uma solução otimizada para LLMs proeminentes, como o Llama 4 Maverick. Este marco representa um passo fundamental para facilitar interações de IA mais rápidas e fluidas no futuro.

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *