DeepSeek V4 zmniejsza wykorzystanie pamięci podręcznej KV o 90% dla tokenów o wielkości 1 mln, choć agresywna kompresja może prowadzić do problemów typu „igła w stogu siana”

DeepSeek, wiodące chińskie laboratorium sztucznej inteligencji, zaprezentowało swój najnowszy model V4, który charakteryzuje się znaczną redukcją zasobów obliczeniowych potrzebnych do wnioskowania tokenów. Zgodnie z informacjami o wydaniu, ten nowy model działa z zaledwie 27% FLOP-ów w porównaniu z wnioskowaniem pojedynczych tokenów i 10% pamięci podręcznej klucz-wartość (KV) wymaganej przez poprzednika, DeepSeek V3.2. To innowacyjne rozwiązanie nie tylko zmniejsza zużycie pamięci, ale także znacząco zwiększa pojemność kontekstową dostępną dla programistów podczas tworzenia modeli.

DeepSeek V4: zwiększona wydajność i efektywność pamięci podręcznej

W modelu V4 DeepSeek demonstruje swoje możliwości, operując na zaledwie 27% FLOP-ów wnioskowania pojedynczego tokena i zaledwie 10% pamięci podręcznej KV, jednocześnie obsługując okno kontekstowe o rozmiarze miliona tokenów. Okno kontekstowe reprezentuje objętość tekstu przetwarzanego przez duży model języka, zanim będzie musiał zwolnić zasoby pamięci.

To udoskonalone wykorzystanie pamięci jest szczególnie istotne podczas fazy dekodowania obliczeń AI, która zazwyczaj dzieli się na dwa etapy: wstępne wypełnianie i dekodowanie. Podczas fazy dekodowania AI generuje dane wyjściowe, jednocześnie zachowując kontekst konwersacyjny ustalony na etapie wstępnego wypełniania. W związku z tym faza dekodowania wymaga większego wykorzystania pamięci, zwłaszcza w odniesieniu do pamięci podręcznej KV.

Schemat blokowy ilustrujący proces modelu transformatora z opisanymi elementami, takimi jak „Eksmisje z pamięci podręcznej”, „Trafienie w pamięć podręczną” i „Brak pamięci podręcznej”. — Diagram NVIDIA ilustrujący działanie pamięci podręcznej KV. Ilustracja: Optymalizacja wnioskowania dla długiego kontekstu i dużych rozmiarów wsadów z pamięcią podręczną KV NVFP4.

W oparciu o wcześniejsze innowacje: ulepszone funkcje modeli DeepSeek

Wraz ze wzrostem długości kontekstu rośnie również zapotrzebowanie na pamięć podręczną KV. Po przekroczeniu miliona tokenów model minimalizujący użycie pamięci podręcznej może przetwarzać większą liczbę żądań, jednocześnie zużywając mniej pamięci. Jednak twierdzenie DeepSeek, że model V4 osiąga 27% FLOP-ów tokenów w trybie pojedynczego wnioskowania, opiera się na dostępności odpowiedniej pamięci GPU, która ułatwia obliczenia.

Co więcej, znaczny spadek pamięci podręcznej wymusza kompromisy; może to prowadzić do scenariuszy określanych jako „szukanie igły w stogu siana”, w których model może pomijać istotne szczegóły, co skutkuje mniej dokładnymi wynikami. To wyzwanie podkreśla wagę zrównoważenia wydajności pamięci z potrzebą uzyskania wyników o wysokiej wierności.

Najnowsze udoskonalenia modelu V4 DeepSeek opierają się na architekturze Multi-Head Latent Attention, wprowadzonej we wcześniejszych wersjach. Ta konstrukcja strategicznie rozwiązuje problemy z ograniczeniami pamięci poprzez kompresję klucza i wartości modelu w ujednoliconą strukturę, która następnie jest rozszerzana w trakcie obliczeń, umożliwiając efektywne wykorzystanie zasobów.