NVIDIA Blackwell Ultra GB300 AI 랙: GB200 대비 탁월한 성능으로 장시간 컨텍스트 DeepSeek 워크로드에서 압도적인 우위를 점하다

최근 NVIDIA의 GB300 NVL72 AI 랙을 DeepSeek의 최신 오픈 소스 모델을 활용하여 평가한 결과, 미세 조정 및 최적화된 추론 전략을 통해 상당한 가능성을 보여주었습니다.

NVIDIA의 Blackwell Ultra는 지연 시간에 민감한 작업에서 GB200 NVL72보다 뛰어난 성능을 보여줍니다.

NVIDIA는 GB300 아키텍처 개발을 통해 장기 컨텍스트 성능 최적화를 목표로 삼았으며, 이를 통해 에이전트 기반 AI 솔루션에 대한 증가하는 수요를 활용할 수 있도록 했습니다.이전 분석에서 Blackwell Ultra는 정교한 공동 설계 방식을 통해 이전 세대 Hopper GPU 대비 메가와트당 처리량이 무려 50배 향상되었음을 보여주었습니다.최근 LMSYS(Large Model Systems Organization)는 장기 컨텍스트 추론에 초점을 맞춘 테스트를 수행하여 매우 고무적인 결과를 도출했습니다.특히 이 테스트에는 인프라 수준의 소프트웨어 라우팅이 포함되었으며, 이에 대해 자세히 살펴보겠습니다.

장시간 컨텍스트 워크로드를 처리할 때, 종종 GPU VRAM에 대한 수요가 집중됩니다.이러한 문제를 해결하기 위해 LMSYS 팀은 다양한 컴퓨팅 노드에 걸쳐 방대한 토큰 컨텍스트를 효율적으로 관리하는 전략인 PD(Prefill-Decode) 분산화를 도입했습니다.이 혁신적인 접근 방식은 여러 하드웨어 구성 요소에 작업을 분산시켜 병목 현상을 완화합니다.특히, 프롬프트 처리를 담당하는 프리필 단계와 디코딩 단계에서 토큰을 생성하는 과정이 분산화의 혜택을 크게 받아, 대규모 환경에서 전반적인 처리량이 향상됩니다.

'GB300 vs GB200: 최대 TPS/GPU'라는 제목의 막대 그래프는 MTP가 꺼져 있을 때 GB300이 사용자당 226.2 TPS로 GB200보다 우수한 성능을 보임을 나타냅니다. — 이미지 출처: LMSYS

PD 분해 외에도 LMSYS 팀은 성능 향상을 위해 여러 최적화 기법을 활용했습니다.여기에는 장기 컨텍스트 시나리오에서 응답 시간을 개선하기 위한 동적 청킹과 키-값 용량의 효율적인 변환이 포함됩니다.평가된 주요 지표는 처리량, 용량 및 지연 시간 비율이었습니다.

NVIDIA의 GB300 NVL72와 GB200 NVL72 비교

최대 처리량 1.53배 증가: GPU당 226.2 TPS(초당 토큰 수)
1.87배 향상된 사용자 속도: MTP(다중 토큰 예측) 덕분에 사용자당 TPS가 크게 증가했습니다.
지연 시간 1.58배 개선: 지연 시간 지표가 눈에 띄게 감소했습니다.

LMSYS의 조사 결과에 따르면 GB300은 특히 지연 시간에 민감한 시나리오에서 GB200 대비 1.4배에서 1.5배의 성능 우위를 꾸준히 유지하는 것으로 나타났습니다.이러한 성능 우위는 에이전트 기반 워크로드에 대한 관심이 증가하는 추세와 잘 부합하며, Blackwell Ultra가 이러한 요구 사항을 충족하는 데 매우 적합하다는 것을 시사합니다.지연 시간 및 처리량 측면에서의 이점에도 불구하고, 특히 GB300의 구축 비용 상승을 고려할 때 포괄적인 총소유비용(TCO) 수치는 아직 공개되지 않았습니다.

부분적으로 열린 서버 랙을 통해 내부에 있는 NVIDIA 하드웨어 구성 요소와 케이블을 볼 수 있습니다. — 이미지 출처: NVIDIA

NVIDIA의 진보적인 접근 방식은 아키텍처 발전뿐만 아니라 산업별 과제에 대한 솔루션에도 중점을 둡니다. Blackwell Ultra 영역에서 지연 시간 지표의 상당한 개선은 에이전트형 AI 분야의 하이퍼스케일러 및 네오클라우드 제공업체 사이에서 Blackwell Ultra의 우위를 더욱 공고히 합니다.

출처 및 이미지