CoreWeave, DeepSeek R1에서 NVIDIA GB300 NVL72 및 H100 대비 6배 향상된 GPU 처리량 달성

새롭게 출시된 NVIDIA Blackwell AI 슈퍼칩인 GB300은 텐서 병렬 처리를 최적화하여 대폭 향상된 처리량 성능을 제공함으로써 이전 모델인 H100 GPU를 크게 능가합니다.

NVIDIA GB300: 향상된 메모리와 대역폭으로 H100보다 뛰어난 처리량 달성

엔비디아의 블랙웰 기반 AI 슈퍼칩 출시는 GPU 기술의 중추적인 발전을 의미합니다. GB300은 엔비디아 역사상 가장 진보된 제품으로, 메모리 용량과 대역폭 증가와 더불어 연산 능력의 괄목할 만한 향상을 보여줍니다.이러한 향상된 기능은 까다로운 AI 작업을 관리하는 데 필수적입니다. CoreWeave에서 최근 실시한 벤치마크 결과는 GB300의 잠재력을 잘 보여줍니다.텐서 병렬 처리 감소를 통해 처리량을 대폭 향상시켰습니다.

CoreWeave가 복잡한 AI 프레임워크인 DeepSeek R1 추론 모델을 활용하여 수행한 테스트에서 두 플랫폼 간에 눈에 띄는 차이점이 드러났습니다. DeepSeek R1 모델을 실행하려면 16개의 NVIDIA H100 GPU 클러스터가 필요했지만, NVIDIA GB300 NVL72 인프라에서 작동하는 GB300 GPU 4개만으로도 동일한 작업을 완료할 수 있었습니다.놀랍게도 GB300 시스템은 GPU당 6배 더 높은 원시 처리량을 제공할 수 있어 복잡한 AI 워크로드에서 H100보다 탁월한 성능을 보여줍니다.

벤치마크 차트: 4x GB300 GPU는 16x H100 GPU보다 처리량이 초당 6.5배 더 빠릅니다. — 이미지 출처: CoreWeave

이러한 결과는 단순화된 4방향 텐서 병렬 처리 구성을 활용하는 GB300의 상당한 이점을 보여줍니다.병렬 처리 감소는 GPU 간 통신을 향상시키고, 뛰어난 메모리 용량과 대역폭은 상당한 성능 향상에 기여합니다. GB300 NVL72 플랫폼은 고대역폭 NVLink 및 NVSwitch 상호 연결의 이점을 활용하여 GPU 간의 빠른 데이터 교환을 용이하게 합니다.

이러한 기술 발전은 사용자에게 실질적인 이점을 제공하여 토큰 생성 속도를 높이고 지연 시간을 단축하여 기업 환경에서 AI 운영을 더욱 효과적으로 확장할 수 있도록 합니다. CoreWeave는 37TB의 엄청난 메모리 용량(최대 40TB 지원 가능)을 자랑하는 NVIDIA GB300 NVL72 랙 스케일 시스템의 탁월한 사양을 강조했습니다.이 시스템은 대규모의 복잡한 AI 모델 관리에 이상적이며, 최대 130TB/s의 메모리 대역폭을 제공하는 상호 연결 기능을 갖추고 있습니다.

NVIDIA GB300 NVL72 사양: GPU, CPU, 메모리 대역폭, 텐서 코어 성능.

궁극적으로 NVIDIA GB300은 단순히 뛰어난 TFLOP 성능을 제공하는 데 그치지 않고 운영 효율성을 향상시킵니다.텐서 병렬 처리를 최소화함으로써 GB300은 일반적으로 대규모 AI 학습 및 추론 프로세스를 저해하는 GPU 간 통신 오버헤드를 줄입니다.결과적으로 기업은 더 적은 GPU로 훨씬 높은 처리량을 달성할 수 있으며, 이는 AI 구현 비용 절감 및 확장성 향상으로 이어집니다.

뉴스 출처: CoreWeave

출처 및 이미지