DeepSeek V4 réduit l’utilisation du cache KV de 90 % pour 1 million de jetons, bien que la compression agressive puisse entraîner des problèmes de « recherche d’une aiguille dans une botte de foin ».

DeepSeek, un laboratoire chinois de pointe en intelligence artificielle, a dévoilé son dernier modèle V4, qui se distingue par une réduction significative des ressources de calcul nécessaires à l’inférence de jetons. D’après ses notes de version, ce nouveau modèle fonctionne avec seulement 27 % des FLOPs d’inférence d’un seul jeton et 10 % du cache clé-valeur (KV) requis par son prédécesseur, DeepSeek V3.2. Cette innovation permet non seulement de réduire la consommation de mémoire, mais aussi d’accroître considérablement la capacité de contexte mise à la disposition des développeurs lors de la construction de leurs modèles.

DeepSeek V4 : Performances et efficacité du cache améliorées

Dans le modèle V4, DeepSeek démontre ses capacités en fonctionnant avec seulement 27 % des FLOPs d’inférence par jeton unique et à peine 10 % du cache KV, tout en gérant une fenêtre de contexte d’un million de jetons. Cette fenêtre de contexte représente le volume de texte qu’un modèle de langage complexe traite avant de devoir libérer des ressources mémoire.

Cette utilisation optimisée de la mémoire est particulièrement cruciale lors de la phase de décodage des calculs d’IA, généralement divisée en deux étapes : le préremplissage et le décodage. Durant la phase de décodage, l’IA génère des résultats tout en conservant le contexte conversationnel établi lors du préremplissage. Par conséquent, cette phase exige une utilisation de la mémoire plus importante, notamment au niveau du cache clé-valeur.

Un organigramme illustrant le processus du modèle de transformateur avec des éléments étiquetés tels que « Évictions du cache », « Accès au cache » et « Échec du cache ». — Schéma NVIDIA illustrant le fonctionnement du cache KV. Image : Optimisation de l’inférence pour les contextes longs et les grands lots avec le cache KV NVFP4.

S’appuyant sur les innovations précédentes : fonctionnalités améliorées des modèles DeepSeek

À mesure que la longueur du contexte augmente, la demande sur le cache KV s’accroît également.À partir d’un million de jetons, un modèle minimisant l’utilisation du cache peut traiter un plus grand nombre de requêtes tout en nécessitant moins de mémoire. Cependant, l’affirmation de DeepSeek concernant le modèle V4 atteignant 27 % de performances en FLOP par jeton d’inférence unique repose sur la disponibilité d’une mémoire GPU suffisante pour faciliter les calculs.

De plus, la réduction significative de la mémoire cache implique des compromis ; cela peut conduire à des situations comparables à la recherche d’une aiguille dans une botte de foin, où le modèle risque de négliger des détails essentiels, ce qui entraîne des résultats moins précis. Ce problème souligne l’importance d’un équilibre entre l’efficacité de la mémoire et la nécessité de fournir des résultats de haute fidélité.

Les dernières améliorations apportées au modèle V4 de DeepSeek reposent sur son architecture d’attention latente multi-têtes, introduite dans les versions précédentes. Cette conception permet de pallier les limitations de mémoire en compressant la clé et la valeur du modèle dans une structure unifiée, qui se dissipe ensuite lors du calcul, optimisant ainsi l’utilisation des ressources.

Source et images