NVIDIA Blackwell 대 AMD MI325X: 최신 MLPerf 추론 벤치마크 결과는 B200이 기록을 세우는 반면 Instinct는 Hopper와 경쟁함을 보여줍니다.

NVIDIA와 AMD는 최근 MLPerf Inference에 대한 최신 성능 지표를 공개하면서 Blackwell B200과 Instinct MI325X를 비롯한 고급 GPU를 선보였습니다.

NVIDIA Blackwell B200 및 AMD Instinct MI325X: 최신 MLPerf 추론 벤치마크 결과

새로 출시된 MLPerf Inference v5.0 벤치마크는 두 GPU 강자가 최신 칩 성능 지표를 제시함에 따라 상당한 진전을 강조합니다.원시 GPU 기능이 중요하지만 효과적인 소프트웨어 최적화와 새로운 AI 생태계에 대한 포괄적인 지원도 이러한 결과에서 중요한 역할을 합니다.

NVIDIA Blackwell, 전례 없는 성능 달성

72개의 NVIDIA Blackwell GPU를 통합하여 단일의 광범위한 GPU로 기능하는 혁신적인 GB200 NVL72 시스템은 이전 NVIDIA H200 NVL8 엔트리에 비해 Llama 3.1 405B 벤치마크에서 30배 더 높은 처리량을 달성했습니다.이 놀라운 성과는 GPU당 3배 이상의 성능 향상과 상당히 확장된 NVIDIA NVLink 상호 연결 도메인에서 비롯되었습니다.

수많은 회사가 MLPerf 벤치마크를 활용하여 성능을 평가하고 있지만, Llama 3.1 405B 벤치마크와 관련된 결과를 제출한 회사는 NVIDIA와 파트너사뿐입니다.

프로덕션 추론 배포는 중요한 지표에서 지연 문제에 자주 직면합니다.첫 번째는 첫 번째 토큰까지의 시간(TTFT)으로, 사용자가 대규모 언어 모델 에서 응답을 받는 데 걸리는 시간을 나타냅니다.두 번째는 토큰이 사용자에게 얼마나 빨리 전달되는지 측정하는 출력 토큰당 시간(TPOT)입니다.

새로운 Llama 2 70B Interactive 벤치마크는 TPOT가 5배 감소하고 TTFT가 4.4배 감소하여 현저히 향상된 사용자 경험을 보여줍니다.이 벤치마크에서 8개의 Blackwell GPU가 장착된 NVIDIA DGX B200 시스템으로 구동되는 NVIDIA의 제출물은 8개의 GPU H200 구성에 비해 성능이 3배 향상되어 이 더 어려운 Llama 2 70B 테스트에서 높은 기준을 확립했습니다.

최적화된 소프트웨어 프레임워크와 결합된 Blackwell 아키텍처의 통합 기능은 추론 성능에 획기적인 변화를 가져왔으며, 이를 통해 AI 팩토리는 지능을 강화하고, 처리량을 늘리고, 토큰 전달 속도를 가속화할 수 있습니다.

NVIDIA를 통해

Green Team인 NVIDIA는 최신 Blackwell GPU, 특히 B200 시리즈로 성능 면에서 우위를 다시 한번 입증했습니다.72개의 B200 칩이 장착된 GB200 NVL72 랙이 선두를 달리고 있으며, 이전 세대 H200에 비해 Llama 3.1 405B 벤치마크에서 30배 더 높은 인상적인 성능 처리량을 보였습니다.게다가 Llama 70B 벤치마크 결과는 8개의 GPU를 장착한 B200 구성과 8개의 GPU를 장착한 H200 구성의 성능이 3배 향상되었음을 확인시켜줍니다.

또한 AMD는 x8 구성으로 제공되는 최신 Instinct MI325X 256GB 가속기를 출시했습니다. AMD의 결과는 H200 시스템과 비슷하지만 향상된 메모리 용량은 대규모 언어 모델(LLM)에 상당한 이점을 제공합니다.그러나 여전히 Blackwell B200보다 뒤처집니다.경쟁력을 유지하려면 AMD는 하드웨어와 소프트웨어 제품 모두에서 모멘텀을 유지해야 하며, 특히 올해 말에 출시될 Ultra 플랫폼인 B300이 예상됩니다.