DeepSeek V4는 100만 토큰에 대해 KV 캐시 사용량을 90% 줄였지만, 과도한 압축으로 인해 ‘건초 더미에서 바늘 찾기’와 같은 문제가 발생할 수 있습니다.

중국의 선도적인 인공지능 연구소인 딥시크(DeepSeek)가 토큰 추론에 필요한 컴퓨팅 자원을 대폭 줄인 최신 V4 모델을 공개했습니다.발표 자료에 따르면, 이 새로운 모델은 이전 버전인 딥시크 V3.2에 비해 단일 토큰 추론 FLOPs는 27%, 키-값(KV) 캐시는 10%만 사용합니다.이러한 혁신적인 개발은 메모리 사용량을 줄일 뿐만 아니라 개발자가 모델을 구축할 때 사용할 수 있는 컨텍스트 용량을 크게 향상시킵니다.

DeepSeek V4: 향상된 성능 및 캐시 효율성

V4 모델에서 DeepSeek은 백만 개의 토큰으로 구성된 컨텍스트 윈도우를 처리하면서도 단일 토큰 추론 FLOP의 27%와 KV 캐시의 10%만을 사용하여 뛰어난 성능을 보여줍니다.여기서 컨텍스트 윈도우는 대규모 언어 모델이 메모리 리소스를 해제하기 전에 처리하는 텍스트의 양을 나타냅니다.

이처럼 정교한 메모리 활용은 특히 AI 연산의 디코딩 단계에서 매우 중요합니다.디코딩 단계는 일반적으로 프리필(Prefill)과 디코딩(Decode)의 두 단계로 나뉩니다.디코딩 단계에서 AI는 프리필 단계에서 설정된 대화 맥락을 유지하면서 동시에 출력을 생성합니다.따라서 디코딩 단계는 특히 키-값(KV) 캐시와 관련하여 더 높은 메모리 사용량을 요구합니다.

'캐시 제거', '캐시 적중', '캐시 미스'와 같은 요소에 레이블이 지정된 트랜스포머 모델 프로세스를 보여주는 순서도입니다. — NVIDIA에서 제공하는 KV 캐시 작동 방식을 보여주는 다이어그램.이미지: NVFP4 KV 캐시를 사용하여 긴 컨텍스트와 큰 배치 크기에 대한 추론 최적화.

기존 혁신을 기반으로: DeepSeek 모델의 향상된 기능

컨텍스트 길이가 증가함에 따라 KV 캐시에 대한 요구량도 증가합니다.백만 토큰 지점에 도달하면 캐시 사용량을 최소화하는 모델은 전체적으로 더 적은 메모리를 사용하면서 더 많은 요청을 처리할 수 있습니다.그러나 DeepSeek이 V4 모델이 단일 추론 토큰 FLOPs에서 27%의 성능을 달성했다고 주장하는 것은 계산을 원활하게 수행할 수 있는 충분한 GPU 메모리가 확보되어 있다는 전제에 기반합니다.

더욱이, 캐시 메모리의 상당한 감소는 절충을 불가피하게 만듭니다.이는 마치 “건초 더미에서 바늘 찾기”와 같은 실패 상황으로 이어질 수 있는데, 모델이 필수적인 세부 정보를 간과하여 정확도가 떨어지는 결과를 초래할 수 있습니다.이러한 문제는 메모리 효율성과 높은 정확도의 출력에 대한 요구 사이의 균형을 맞추는 것이 얼마나 중요한지를 보여줍니다.

DeepSeek V4 모델의 최신 개선 사항은 이전 버전에서 도입된 멀티 헤드 잠재 어텐션 아키텍처를 기반으로 합니다.이 설계는 모델의 키와 값을 통합된 구조로 압축한 후 계산 중에 확장하여 메모리 제약을 전략적으로 해결함으로써 효율적인 리소스 활용을 가능하게 합니다.

출처 및 이미지