DeepSeek V4 reduz o uso do cache KV em 90% para 1 milhão de tokens, embora a compressão agressiva possa levar a problemas de “encontrar uma agulha no palheiro”.

A DeepSeek, um dos principais laboratórios chineses de inteligência artificial, apresentou seu mais recente modelo V4, que oferece uma redução substancial nos recursos computacionais necessários para inferência de tokens. De acordo com as notas de lançamento, este novo modelo opera com apenas 27% dos FLOPs de inferência de token único e 10% do cache de chave-valor (KV) exigido por seu antecessor, o DeepSeek V3.2. Este desenvolvimento inovador não apenas reduz o consumo de memória, mas também aumenta significativamente a capacidade de contexto disponível para os desenvolvedores ao construir seus modelos.

DeepSeek V4: Desempenho aprimorado e eficiência de cache

No modelo V4, o DeepSeek demonstra suas capacidades ao conseguir operar com apenas 27% das operações de ponto flutuante (FLOPs) de inferência de token único, juntamente com meros 10% do cache KV, enquanto lida com uma janela de contexto de um milhão de tokens. A janela de contexto representa o volume de texto que um modelo de linguagem de grande porte processa antes de precisar liberar recursos de memória.

Essa utilização otimizada da memória é particularmente crucial durante a fase de Decodificação da computação de IA, que normalmente é dividida em duas etapas: Preenchimento e Decodificação. Durante a fase de Decodificação, a IA gera saídas enquanto mantém simultaneamente o contexto conversacional estabelecido na etapa de Preenchimento. Consequentemente, a fase de Decodificação exige maior uso de memória, especialmente no que diz respeito ao cache chave-valor.

Um fluxograma ilustrando o processo do modelo Transformer com elementos rotulados como 'Remoções de Cache', 'Acerto de Cache' e 'Falha de Cache'. — Diagrama da NVIDIA ilustrando a operação do cache KV. Imagem: Otimizando a inferência para contextos longos e tamanhos de lote grandes com o cache KV NVFP4.

Aprimorando as inovações anteriores: Recursos aprimorados dos modelos DeepSeek

À medida que o comprimento do contexto aumenta, também aumenta a demanda sobre o cache KV. Ao atingir a marca de um milhão de tokens, um modelo que minimiza o uso do cache pode processar um número maior de solicitações, necessitando de menos memória no geral. No entanto, a afirmação da DeepSeek de que o modelo V4 atinge 27% de FLOPs por token em inferência única depende da disponibilidade de memória de GPU suficiente para realizar os cálculos.

Além disso, a queda significativa na memória cache exige concessões; isso pode levar a cenários classificados como falhas do tipo “agulha no palheiro”, em que o modelo pode ignorar detalhes essenciais, resultando em saídas menos precisas. Esse desafio ressalta a importância de equilibrar a eficiência da memória com a necessidade de saídas de alta fidelidade.

Os aprimoramentos mais recentes no modelo V4 do DeepSeek baseiam-se na arquitetura de Atenção Latente Multi-Cabeças, introduzida em versões anteriores. Esse design aborda estrategicamente as limitações de memória, comprimindo a chave e o valor do modelo em uma estrutura unificada, que é posteriormente expandida durante a computação, permitindo uma utilização eficiente dos recursos.

Fonte e imagens