DeepSeek V4 reduce el uso de la caché KV en un 90 % para 1 millón de tokens, aunque la compresión agresiva puede provocar problemas de «aguja en un pajar».

DeepSeek, un laboratorio chino líder en inteligencia artificial, ha presentado su último modelo V4, que ofrece una reducción sustancial en los recursos computacionales necesarios para la inferencia de tokens. Según sus notas de lanzamiento, este nuevo modelo opera con solo el 27 % de las operaciones de punto flotante (FLOP) de inferencia de un solo token y el 10 % de la caché clave-valor (KV) requerida por su predecesor, DeepSeek V3.2. Este desarrollo innovador no solo reduce el consumo de memoria, sino que también mejora significativamente la capacidad de contexto disponible para los desarrolladores al construir sus modelos.

DeepSeek V4: Rendimiento y eficiencia de caché mejorados

En el modelo V4, DeepSeek demuestra sus capacidades al funcionar con tan solo el 27 % de las operaciones de punto flotante (FLOPs) de inferencia de un solo token, junto con apenas el 10 % de la caché KV, mientras maneja una ventana de contexto de un millón de tokens. La ventana de contexto representa el volumen de texto que un modelo de lenguaje grande procesa antes de necesitar liberar recursos de memoria.

Esta optimización del uso de la memoria es crucial durante la fase de decodificación de la computación de IA, que generalmente se divide en dos etapas: precarga y decodificación. Durante la fase de decodificación, la IA genera resultados manteniendo simultáneamente el contexto conversacional establecido en la etapa de precarga. Por consiguiente, la fase de decodificación requiere un mayor uso de memoria, especialmente en lo que respecta a la caché KV.

Un diagrama de flujo que ilustra el proceso del modelo transformador con elementos etiquetados como 'Desalojos de caché', 'Acierto de caché' y 'Fallo de caché'. — Diagrama de NVIDIA que ilustra el funcionamiento de la caché KV. Imagen: Optimización de la inferencia para contextos extensos y lotes de gran tamaño con la caché KV NVFP4.

Aprovechando las innovaciones anteriores: Funcionalidades mejoradas de los modelos DeepSeek

A medida que aumenta la longitud del contexto, también aumenta la demanda de la caché KV. Al alcanzar el millón de tokens, un modelo que minimiza el uso de la caché puede procesar un mayor número de solicitudes con menor consumo de memoria. Sin embargo, la afirmación de DeepSeek sobre el rendimiento del modelo V4, que alcanza un 27 % de FLOPs en inferencias de tokens individuales, depende de la disponibilidad de suficiente memoria GPU para facilitar los cálculos.

Además, la importante reducción de la memoria caché exige concesiones; esto puede dar lugar a situaciones que se denominan fallos de «buscar una aguja en un pajar», donde el modelo podría pasar por alto detalles esenciales, lo que resultaría en resultados menos precisos. Este desafío subraya la importancia de equilibrar la eficiencia de la memoria con la necesidad de obtener resultados de alta fidelidad.

Las últimas mejoras del modelo V4 de DeepSeek se basan en su arquitectura de atención latente multi-cabeza, introducida en versiones anteriores. Este diseño aborda estratégicamente las limitaciones de memoria al comprimir la clave y el valor del modelo en una estructura unificada, que posteriormente se expande durante el cálculo, lo que permite una utilización eficiente de los recursos.

Fuente e imágenes