MLPerf v5.1 AI 추론 벤치마크 비교: NVIDIA Blackwell Ultra GB300과 AMD Instinct MI355X 집중 조명

최신 MLPerf v5.1 AI 추론 벤치마크에서 NVIDIA와 AMD의 획기적인 칩인 Blackwell Ultra GB300과 Instinct MI355X가 처음으로 공개되었습니다.이 강력한 프로세서는 뛰어난 성능 지표로 기술 업계에서 큰 화제를 불러일으키고 있습니다.

NVIDIA Blackwell Ultra GB300 및 AMD Instinct MI355X: AI 성능의 새로운 벤치마크

MLCommons는 최근 MLPerf v5.1 벤치마크를 통해 AI 성능에 대한 최신 평가를 발표했으며, NVIDIA와 AMD를 비롯한 여러 업체의 뛰어난 결과를 보여주었습니다. Blackwell Ultra GB300과 Instinct MI355X는 각 제조업체의 AI 기술 분야에서 최고의 제품으로 손꼽힙니다.본 분석에서는 벤치마크를 통해 입증된 두 제품의 성능을 자세히 살펴보겠습니다.

Blackwell Ultra GB300 성능 하이라이트

DeepSeek R1(오프라인) 부문에서 NVIDIA의 GB300은 이전 모델인 GB200을 능가하여 72개 GPU 구성에서 45%, 8개 GPU 구성에서 44%의 성능 향상을 달성했습니다.이러한 성능 향상은 NVIDIA의 예상 성능 향상과 밀접한 관련이 있습니다.

DeepSeek R1(서버) 카테고리에서 Blackwell은 72개 GPU의 경우 성능이 25% 향상되고 8개 GPU 구성에서는 21% 향상되어 눈에 띄는 진전을 이루었습니다.

AMD의 Instinct MI355X가 경기장에 등장합니다.

AMD Instinct MI355X는 특히 Llama 3.1 405B(오프라인) 벤치마크에서 상당한 성과를 보였습니다. GB200과의 비교 평가에서는 27%의 놀라운 성능 향상을 보이며, 이는 AI 분야에서 AMD의 발전을 입증합니다.

게다가 Llama 2 70B(오프라인)와 관련된 벤치마크에서 MI355X는 64칩 구성으로 초당 최대 648, 248개의 토큰을 생성하여 인상적인 처리량을 보여주었고, 8칩 구성의 NVIDIA GB200보다 무려 2.09배 높은 성능을 보였습니다.

NVIDIA는 Blackwell Ultra GB300 플랫폼을 통해 달성한 다양한 기록을 포함하여 벤치마크에 대한 자세한 분석을 공개했습니다.이러한 결과는 AI 추론 기능의 상당한 발전을 보여줍니다.

블랙웰이 라마 3.1 405B 인터랙티브 기록을 달성했으며, 성능 그래프 맥락에서 NVIDIA 로고가 헤드라인에 표시됩니다. — 이미지 출처: NVIDIA

종합 기록표

MLPerf 추론 가속기별 레코드
기준	오프라인	섬기는 사람	대화형
딥시크-R1	5, 842 토큰/초/GPU	2, 907 토큰/초/GPU	**
화염 3.1 405B	224 토큰/초/GPU	170 토큰/초/GPU	138 토큰/초/GPU
2 70B 99.9%로 전화하세요	12, 934 토큰/초/GPU	12, 701 토큰/초/GPU	7, 856 토큰/초/GPU
2 70B 99%로 전화하세요	13, 015 토큰/초/GPU	12, 701 토큰/초/GPU	7, 856 토큰/초/GPU
라마 3.1 8B	18, 370 토큰/초/GPU	16, 099 토큰/초/GPU	15, 284 토큰/초/GPU
안정 확산 XL	4.07 샘플/초/GPU	3.59 쿼리/초/GPU	**
믹스트랄 8x7B	16, 099 토큰/초/GPU	16, 131 토큰/초/GPU	**
DLRMv2 99%	87, 228개 샘플/초/GPU	80, 515개 샘플/초/GPU	**
DLRMv2 99.9%	48, 666개 샘플/초/GPU	46, 259개 쿼리/초/GPU	**
속삭임	5, 667 토큰/초/GPU	**	**
R-갓	81, 404개 샘플/초/GPU	**	**
레티나넷	1, 875개 샘플/초/GPU	1, 801개 쿼리/초/GPU	**

또한 NVIDIA의 Blackwell Ultra는 MLPerf에서 새로운 추론 벤치마크를 수립하여 오프라인 모드에서 기존 Hopper 아키텍처보다 4.7배, 서버 구성에서는 5.2배 더 높은 성능을 보여 효율성이 크게 향상되었음을 보여줍니다.

DeepSeek-R1 성능 비교
건축학	오프라인	섬기는 사람
홉 따는 기계	1, 253 토큰/초/GPU	556 토큰/초/GPU
블랙웰 울트라	5, 842 토큰/초/GPU	2, 907 토큰/초/GPU
블랙웰 울트라 어드밴티지	4.7배	5.2배