NVIDIA Blackwell Ultra GB300 AI 랙, 장시간 컨텍스트 DeepSeek 워크로드에서 탁월한 성능 발휘, GB200 대비 우위

NVIDIA는 최근 DeepSeek의 최신 오픈 소스 모델을 사용하여 GB300 NVL72 AI 랙의 성능을 테스트했습니다.광범위한 미세 조정 및 최적화된 추론을 거친 결과는 매우 유망한 것으로 나타났습니다.

NVIDIA의 블랙웰 울트라는 지연 시간에 민감한 작업에서 GB200 NVL72보다 최대 1.5배 뛰어난 성능을 보여줍니다.

NVIDIA의 최신 혁신 기술인 GB300 시리즈는 에이전트 기반 AI 기능에 대한 증가하는 수요를 충족하기 위해 탁월한 장기 컨텍스트 성능을 제공하는 것을 목표로 합니다.앞서 언급했듯이, Blackwell Ultra 아키텍처는 독자적인 공동 설계 전략을 통해 이전 세대인 Hopper GPU에 비해 메가와트당 처리량이 무려 50배 증가했습니다.최근 LMSYS(Large Model Systems Organization)에서 실시한 테스트에서 GB300 NVL72의 장기 컨텍스트 추론 능력이 입증되었으며, 매우 고무적인 결과를 보여주었습니다.특히, 이 테스트에는 인프라 수준의 소프트웨어 라우팅도 포함되었는데, 이에 대해서는 더 자세히 살펴보겠습니다.

장시간 컨텍스트 워크로드 영역에서는 GPU VRAM에 대한 의존도가 더욱 두드러집니다.이를 해결하기 위해 LMSYS 팀은 PD(Prefill-Decode) 분산이라는 기술을 도입했습니다.이 기술은 워크로드를 다양한 하드웨어 노드에 효율적으로 분산하여 잠재적인 병목 현상을 방지합니다.기본적으로, 프롬프트 처리에 중점을 둔 프리필 단계와 토큰 생성을 포함하는 디코딩 단계는 이 분산 방식을 통해 상당한 이점을 얻어 대규모 처리량 향상을 가져옵니다.

'GB300 vs GB200: 최대 TPS/GPU'라는 제목의 막대 그래프는 MTP가 꺼져 있을 때 GB300이 사용자당 226.2 TPS로 GB200보다 우수한 성능을 보임을 나타냅니다. — 이미지 출처: LMSYS

LMSYS 팀은 장기적인 컨텍스트 설정에 최적화된 신속한 응답을 위한 동적 청킹과 효과적인 KV 용량 변환을 포함한 다양한 최적화 전략을 추가로 구현했습니다.테스트 중에 관찰된 주요 성능 지표는 다음과 같습니다.

비교 분석: NVIDIA GB300 NVL72 vs. GB200 NVL72

최대 처리량: GPU당 226.2 TPS(초당 토큰 수)로 1.53배 향상
사용자 속도 향상: 멀티 토큰 예측(MTP)으로 인해 사용자당 TPS가 1.87배 증가했습니다.
지연 시간 개선: 1.58배 더 낮은 지연 시간이 관찰되었습니다.

평가 결과에 따르면 GB300은 특히 지연 시간이 중요한 상황에서 GB200보다 1.4배에서 1.5배 우수한 성능을 유지하는 것으로 나타났습니다.에이전트 기반 애플리케이션에 특화된 Blackwell Ultra 아키텍처는 고성능 워크로드에 전략적인 선택으로 자리매김하고 있습니다.그러나 GB300의 구축 비용이 동시에 증가함에 따라 총소유비용(TCO)에 대한 업계 차원의 논의는 아직 활발하게 이루어지지 않고 있다는 점에 유의해야 합니다.