DeepSeek V4 riduce del 90% l’utilizzo della cache KV per 1 milione di token, sebbene la compressione aggressiva possa portare a problemi di “ricerca dell’ago nel pagliaio”.

DeepSeek, un importante laboratorio cinese di intelligenza artificiale, ha presentato il suo ultimo modello V4, che vanta una sostanziale riduzione delle risorse di calcolo necessarie per l’inferenza dei token. Secondo le note di rilascio, questo nuovo modello opera con solo il 27% dei FLOP per l’inferenza di un singolo token e il 10% della cache chiave-valore (KV) richiesta dal suo predecessore, DeepSeek V3.2. Questo sviluppo innovativo non solo riduce il consumo di memoria, ma migliora anche significativamente la capacità di contesto a disposizione degli sviluppatori durante la creazione dei loro modelli.

DeepSeek V4: Prestazioni migliorate ed efficienza della cache

Nel modello V4, DeepSeek dimostra le sue capacità riuscendo a funzionare con appena il 27% delle operazioni FLOP di inferenza a singolo token e con appena il 10% della cache KV, gestendo una finestra di contesto di un milione di token. La finestra di contesto rappresenta il volume di testo che un modello linguistico di grandi dimensioni elabora prima di dover rilasciare risorse di memoria.

Questa raffinata gestione della memoria è particolarmente cruciale durante la fase di decodifica del calcolo dell’IA, che è tipicamente suddivisa in due fasi: precaricamento e decodifica. Durante la fase di decodifica, l’IA genera output mantenendo contemporaneamente il contesto conversazionale stabilito nella fase di precaricamento. Di conseguenza, la fase di decodifica richiede un maggiore utilizzo della memoria, soprattutto per quanto riguarda la cache KV.

Un diagramma di flusso che illustra il processo del modello transformer con elementi etichettati come 'Cache Evictions', 'Cache Hit' e 'Cache Miss', — Diagramma NVIDIA che illustra il funzionamento della cache KV. Immagine: Ottimizzazione dell’inferenza per contesti lunghi e batch di grandi dimensioni con la cache KV NVFP4.

Sulla scia delle innovazioni precedenti: funzionalità migliorate dei modelli DeepSeek

All’aumentare della lunghezza del contesto, aumenta anche la richiesta di memoria nella cache KV. Con un milione di token, un modello che minimizza l’utilizzo della cache può elaborare un numero maggiore di richieste richiedendo complessivamente meno memoria. Tuttavia, l’affermazione di DeepSeek secondo cui il modello V4 raggiunge il 27% di FLOP per token a inferenza singola si basa sulla disponibilità di memoria GPU adeguata per facilitare i calcoli.

Inoltre, la significativa riduzione della memoria cache impone dei compromessi; ciò può portare a situazioni definite “cercare un ago in un pagliaio”, in cui il modello potrebbe trascurare dettagli essenziali, con conseguenti risultati meno accurati. Questa difficoltà sottolinea l’importanza di bilanciare l’efficienza della memoria con la necessità di risultati di alta fedeltà.

I più recenti miglioramenti del modello V4 di DeepSeek si basano sull’architettura Multi-Head Latent Attention introdotta nelle versioni precedenti. Questa architettura affronta strategicamente i limiti di memoria comprimendo la chiave e il valore del modello in una struttura unificata, che si espande successivamente durante l’elaborazione, consentendo un utilizzo efficiente delle risorse.

Fonte e immagini

DeepSeek V4 riduce del 90% l’utilizzo della cache KV per 1 milione di token, sebbene la compressione aggressiva possa portare a problemi di “ricerca dell’ago nel pagliaio”.

DeepSeek V4: Prestazioni migliorate ed efficienza della cache

Sulla scia delle innovazioni precedenti: funzionalità migliorate dei modelli DeepSeek

Build per la migliore fortuna con i personaggi di Sailor Piece

Come verificare se l'SSD è installato nello slot M.2 corretto