NVIDIA, Blackwell GPU와 Meta의 Llama 4 Maverick으로 1,000 TPS 장벽 돌파, 기록적인 토큰 속도 달성

엔비디아는 블랙웰 아키텍처를 출시하며 인공지능(AI) 성능에 있어 획기적인 진전을 이루었습니다.이러한 혁신은 일련의 전략적 최적화와 향상된 하드웨어 성능에 크게 기인합니다.

Blackwell의 발전: 대규모 언어 모델을 위한 AI 성능 향상

AI의 경계를 끊임없이 넓혀 온 엔비디아는 블랙웰 기술로 괄목할 만한 발전을 이루었습니다.최근 블로그 게시물 에서 엔비디아는 8개의 엔비디아 블랙웰 GPU가 장착된 단일 DGX B200 노드를 사용하여 초당 1, 000개의 토큰(TP/S)이라는 놀라운 성과를 달성했다고 발표했습니다.이 성과는 메타(Meta)의 4, 000억 개의 매개변수를 가진 라마 4 매버릭(Llama 4 Maverick) 모델을 활용하여 달성되었으며, 이는 엔비디아 AI 생태계가 업계에 미치는 지대한 영향을 여실히 보여줍니다.

이러한 고급 구성을 통해 NVIDIA의 Blackwell 서버는 최대 72, 000TP/s라는 놀라운 성능을 제공할 수 있습니다. CEO 젠슨 황이 Computex 기조연설에서 강조했듯이, 기업들은 특히 토큰 출력 속도 측면에서 AI 발전 사항을 선보이고자 하는 의지가 그 어느 때보다 강해지고 있습니다.이러한 추세는 AI 개발의 특정 측면을 강화하려는 NVIDIA의 강력한 의지를 보여줍니다.

이러한 획기적인 속도를 달성하기 위해서는 상당한 소프트웨어 최적화가 필요하며, 특히 TensorRT-LLM과 혁신적인 추측 디코딩 모델을 통해 성능이 4배 향상되었습니다. NVIDIA 팀은 광범위한 대규모 언어 모델(LLM)을 위해 Blackwell을 미세 조정하는 데 기여한 다양한 요소를 심층 분석했습니다.핵심적인 혁신은 추측 디코딩의 사용입니다.이 방법은 민첩한 “초안” 모델을 사용하여 여러 토큰을 미리 예측하는 동시에, 주요(더 큰) 모델이 이러한 예측을 동시에 검증하는 방식입니다.

추측 디코딩은 생성된 텍스트의 품질을 손상시키지 않으면서 LLM의 추론 속도를 높이는 데 널리 사용되는 기술입니다.이 기술은 더 작고 빠른 “초안” 모델이 일련의 추측 토큰을 예측하고, 이를 더 큰 “대상” LLM이 병렬로 검증함으로써 이러한 목표를 달성합니다.

속도 향상은 추가적인 초안 모델 오버헤드를 희생하여 하나의 대상 모델 반복에서 잠재적으로 여러 토큰을 생성함으로써 실현됩니다.

– 엔비디아

또한, NVIDIA는 GPU 하드웨어 발전에만 의존하는 것이 아니라, 대규모 언어 모델의 추론 프로세스를 향상시키도록 특별히 설계된 소프트웨어 중심 프레임워크인 EAGLE3 기반 아키텍처를 구현했습니다.이러한 발전을 통해 NVIDIA는 AI 분야에서 선도적인 입지를 굳건히 할 뿐만 아니라, Blackwell을 Llama 4 Maverick과 같은 주요 LLM에 최적화된 솔루션으로 자리매김하게 되었습니다.이는 향후 더욱 빠르고 원활한 AI 상호작용을 촉진하는 데 중요한 발걸음을 내딛는 것을 의미합니다.

출처 및 이미지