
최신 MLPerf v5.1 AI 추론 벤치마크에서 NVIDIA와 AMD의 획기적인 칩인 Blackwell Ultra GB300과 Instinct MI355X가 처음으로 공개되었습니다.이 강력한 프로세서는 뛰어난 성능 지표로 기술 업계에서 큰 화제를 불러일으키고 있습니다.
NVIDIA Blackwell Ultra GB300 및 AMD Instinct MI355X: AI 성능의 새로운 벤치마크
MLCommons는 최근 MLPerf v5.1 벤치마크를 통해 AI 성능에 대한 최신 평가를 발표했으며, NVIDIA와 AMD를 비롯한 여러 업체의 뛰어난 결과를 보여주었습니다. Blackwell Ultra GB300과 Instinct MI355X는 각 제조업체의 AI 기술 분야에서 최고의 제품으로 손꼽힙니다.본 분석에서는 벤치마크를 통해 입증된 두 제품의 성능을 자세히 살펴보겠습니다.
Blackwell Ultra GB300 성능 하이라이트
DeepSeek R1(오프라인) 부문에서 NVIDIA의 GB300은 이전 모델인 GB200을 능가하여 72개 GPU 구성에서 45%, 8개 GPU 구성에서 44%의 성능 향상을 달성했습니다.이러한 성능 향상은 NVIDIA의 예상 성능 향상과 밀접한 관련이 있습니다.
DeepSeek R1(서버) 카테고리에서 Blackwell은 72개 GPU의 경우 성능이 25% 향상되고 8개 GPU 구성에서는 21% 향상되어 눈에 띄는 진전을 이루었습니다.
AMD의 Instinct MI355X가 경기장에 등장합니다.
AMD Instinct MI355X는 특히 Llama 3.1 405B(오프라인) 벤치마크에서 상당한 성과를 보였습니다. GB200과의 비교 평가에서는 27%의 놀라운 성능 향상을 보이며, 이는 AI 분야에서 AMD의 발전을 입증합니다.
게다가 Llama 2 70B(오프라인)와 관련된 벤치마크에서 MI355X는 64칩 구성으로 초당 최대 648, 248개의 토큰을 생성하여 인상적인 처리량을 보여주었고, 8칩 구성의 NVIDIA GB200보다 무려 2.09배 높은 성능을 보였습니다.
NVIDIA는 Blackwell Ultra GB300 플랫폼을 통해 달성한 다양한 기록을 포함하여 벤치마크에 대한 자세한 분석을 공개했습니다.이러한 결과는 AI 추론 기능의 상당한 발전을 보여줍니다.

종합 기록표
MLPerf 추론 가속기별 레코드 | |||
기준 | 오프라인 | 섬기는 사람 | 대화형 |
딥시크-R1 | 5, 842 토큰/초/GPU | 2, 907 토큰/초/GPU | ** |
화염 3.1 405B | 224 토큰/초/GPU | 170 토큰/초/GPU | 138 토큰/초/GPU |
2 70B 99.9%로 전화하세요 | 12, 934 토큰/초/GPU | 12, 701 토큰/초/GPU | 7, 856 토큰/초/GPU |
2 70B 99%로 전화하세요 | 13, 015 토큰/초/GPU | 12, 701 토큰/초/GPU | 7, 856 토큰/초/GPU |
라마 3.1 8B | 18, 370 토큰/초/GPU | 16, 099 토큰/초/GPU | 15, 284 토큰/초/GPU |
안정 확산 XL | 4.07 샘플/초/GPU | 3.59 쿼리/초/GPU | ** |
믹스트랄 8x7B | 16, 099 토큰/초/GPU | 16, 131 토큰/초/GPU | ** |
DLRMv2 99% | 87, 228개 샘플/초/GPU | 80, 515개 샘플/초/GPU | ** |
DLRMv2 99.9% | 48, 666개 샘플/초/GPU | 46, 259개 쿼리/초/GPU | ** |
속삭임 | 5, 667 토큰/초/GPU | ** | ** |
R-갓 | 81, 404개 샘플/초/GPU | ** | ** |
레티나넷 | 1, 875개 샘플/초/GPU | 1, 801개 쿼리/초/GPU | ** |
또한 NVIDIA의 Blackwell Ultra는 MLPerf에서 새로운 추론 벤치마크를 수립하여 오프라인 모드에서 기존 Hopper 아키텍처보다 4.7배, 서버 구성에서는 5.2배 더 높은 성능을 보여 효율성이 크게 향상되었음을 보여줍니다.
DeepSeek-R1 성능 비교 | ||
건축학 | 오프라인 | 섬기는 사람 |
홉 따는 기계 | 1, 253 토큰/초/GPU | 556 토큰/초/GPU |
블랙웰 울트라 | 5, 842 토큰/초/GPU | 2, 907 토큰/초/GPU |
블랙웰 울트라 어드밴티지 | 4.7배 | 5.2배 |
앞으로의 MLPerf 제출을 기대하면서, NVIDIA, AMD, Intel이 경쟁이 치열한 이 환경에서 더욱 높은 성능 수준을 달성하기 위해 플랫폼을 계속 개선해 나갈 것으로 예상됩니다.
답글 남기기