MLPerf v5.1 AI 推理基準測試比較：聚焦 NVIDIA Blackwell Ultra GB300 與 AMD Instinct MI355X

最新的 MLPerf v5.1 AI 推理基準測試見證了 NVIDIA 和 AMD 突破性晶片的首次亮相：Blackwell Ultra GB300 和 Instinct MI355X。這些強大的處理器憑藉其出色的性能指標在科技界引起了廣泛關注。

NVIDIA Blackwell Ultra GB300 和 AMD Instinct MI355X：AI 性能的新標桿

MLCommons 近期發布了透過MLPerf v5.1基準測試對 AI 效能的最新評估，其中不乏令人矚目的佳作，尤其以 NVIDIA 和 AMD 的產品最為突出。 Blackwell Ultra GB300 和 Instinct MI355X 分別作為各自製造商在 AI 技術方面的佼佼者脫穎而出。在本篇分析中，我們將仔細分析它們在基準測試中展現的表現。

Blackwell Ultra GB300 效能亮點

在 DeepSeek R1（離線）測試中，NVIDIA GB300 的表現超越了其前代產品 GB200，在 72 GPU 配置下效能提升了 45%，在 8 GPU 配置下效能提升了 44%。這些改進與 NVIDIA 預期的效能提升高度一致。

在 DeepSeek R1（伺服器）類別中，Blackwell 取得了顯著進步，72 個 GPU 的效能提高了 25%，8 個 GPU 的配置的效能提高了 21%。

AMD Instinct MI355X 亮相

AMD Instinct MI355X 也做出了顯著貢獻，尤其是在 Llama 3.1 405B（離線）基準測試中。與 GB200 的比較評估顯示，效能提升顯著，高達 27%，彰顯了 AMD 在 AI 領域的進步。

此外，在涉及 Llama 2 70B（離線）的基準測試中，MI355X 展示了令人印象深刻的吞吐量，在 64 晶片配置下每秒可產生高達 648, 248 個令牌，在 8 晶片設定下比 NVIDIA GB200 的性能提高了 2.09 倍。

NVIDIA 分享了其基準測試的詳細分析，包括透過 Blackwell Ultra GB300 平台創下的多項紀錄。這些結果展現了 AI 推理能力的顯著提升。

Blackwell 在效能圖表中設定了帶有 NVIDIA 標誌的 Llama 3.1 405B 互動式記錄標題。 — 圖片來源：NVIDIA

綜合記錄表

MLPerf 推理每個加速器記錄
基準	離線	伺服器	互動的
DeepSeek-R1	5, 842 個令牌/秒/GPU	2, 907 個令牌/秒/GPU	**
火焰 3.1 405B	224 個令牌/秒/GPU	170 個代幣/秒/GPU	138 個令牌/秒/GPU
撥打 2 70B 99.9%	12, 934 個令牌/秒/GPU	12, 701 個令牌/秒/GPU	7, 856 個令牌/秒/GPU
撥打 2 70B 99%	13, 015 個令牌/秒/GPU	12, 701 個令牌/秒/GPU	7, 856 個令牌/秒/GPU
駱駝 3.1 8B	18, 370 個代幣/秒/GPU	16, 099 個代幣/秒/GPU	15, 284 個令牌/秒/GPU
穩定擴散 XL	4.07 個樣本/秒/GPU	3.59 個查詢/秒/GPU	**
Mixtral 8x7B	16, 099 個代幣/秒/GPU	16, 131 個令牌/秒/GPU	**
DLRMv2 99%	87, 228 個樣本/秒/GPU	80, 515 個樣本/秒/GPU	**
DLRMv2 99.9%	48, 666 個樣本/秒/GPU	46, 259 次查詢/秒/GPU	**
耳語	5, 667 個令牌/秒/GPU	**	**
R-GAT	81, 404 個樣本/秒/GPU	**	**
視網膜網	1, 875 個樣本/秒/GPU	1, 801 個查詢/秒/GPU	**

此外，NVIDIA 的 Blackwell Ultra 在 MLPerf 上建立了新的推理基準，其效能在離線模式下比上一代 Hopper 架構高出 4.7 倍，在伺服器配置下比上一代 Hopper 架構高出 5.2 倍，效能實現了大幅飛躍。

DeepSeek-R1性能比較
建築學	離線	伺服器
料斗	1, 253 個令牌/秒/GPU	556 個令牌/秒/GPU
布萊克韋爾超級	5, 842 個令牌/秒/GPU	2, 907 個令牌/秒/GPU
Blackwell Ultra Advantage	4.7倍	5.2倍