MLPerf v5.1 AI推論ベンチマーク比較：NVIDIA Blackwell Ultra GB300とAMD Instinct MI355Xに注目

最新のMLPerf v5.1 AI推論ベンチマークでは、NVIDIAとAMDの画期的なチップ、Blackwell Ultra GB300とInstinct MI355Xがデビューしました。これらの強力なプロセッサは、その卓越したパフォーマンス指標により、テクノロジーコミュニティで大きな話題を呼んでいます。

NVIDIA Blackwell Ultra GB300とAMD Instinct MI355X：AIパフォーマンスの新たなベンチマーク

MLCommonsは先日、 MLPerf v5.1ベンチマークを用いたAIパフォーマンスの最新評価を発表しました。NVIDIAとAMDの製品が特に優れた結果を示しました。Blackwell Ultra GB300とInstinct MI355Xは、それぞれのメーカーが提供するAIテクノロジーにおける最高峰製品として際立っています。本分析では、ベンチマークを通して実証されたこれらの製品の性能を詳細に検証します。

ブラックウェルウルトラ GB300 パフォーマンスハイライト

DeepSeek R1（オフライン）カテゴリーにおいて、NVIDIAのGB300は前身のGB200を凌駕し、72GPU構成で45%、8GPU構成で44%という劇的なパフォーマンス向上を達成しました。これらの改善は、NVIDIAが予測するパフォーマンス向上とほぼ一致しています。

DeepSeek R1 (サーバー) カテゴリでは、Blackwell は 72 GPU でパフォーマンスが 25% 向上し、8 GPU 構成では 21% 向上するなど、目覚ましい進歩を遂げました。

AMDのInstinct MI355Xが市場に登場

AMD Instinct MI355Xも、特にLlama 3.1 405B（オフライン）ベンチマークにおいて大きな貢献を果たしました。GB200との比較評価では、27%という驚異的なパフォーマンス向上が示され、AMDのAI分野における進歩を実証しました。

さらに、Llama 2 70B (オフライン) を含むベンチマークでは、MI355X は 64 チップ構成で最大 648, 248 トークン/秒を生成し、8 チップ構成では NVIDIA GB200 の 2.09 倍という驚異的なパフォーマンス向上を示すなど、印象的なスループットを示しました。

NVIDIAは、Blackwell Ultra GB300プラットフォームで達成された様々な記録を含む、ベンチマークの詳細な分析を公開しました。これらの結果は、AI推論能力の大きな進歩を示しています。

Blackwell がパフォーマンスグラフのコンテキストで NVIDIA ロゴとともに Llama 3.1 405B インタラクティブ記録の見出しを設定しました。 — 画像ソース: NVIDIA

総合記録表

MLPerf 推論アクセラレータごとのレコード
ベンチマーク	オフライン	サーバ	相互の作用
ディープシーク-R1	5, 842トークン/秒/GPU	2, 907トークン/秒/GPU	**
フレイム 3.1 405B	224トークン/秒/GPU	170トークン/秒/GPU	138トークン/秒/GPU
コール2 70B 99.9%	12, 934トークン/秒/GPU	12, 701トークン/秒/GPU	7, 856トークン/秒/GPU
コール2 70B 99%	13, 015トークン/秒/GPU	12, 701トークン/秒/GPU	7, 856トークン/秒/GPU
ラマ 3.1 8B	18, 370トークン/秒/GPU	16, 099トークン/秒/GPU	15, 284トークン/秒/GPU
安定拡散XL	4.07 サンプル/秒/GPU	3.59 クエリ/秒/GPU	**
ミクストラル 8x7B	16, 099トークン/秒/GPU	16, 131トークン/秒/GPU	**
DLRMv2 99%	87, 228サンプル/秒/GPU	80, 515サンプル/秒/GPU	**
DLRMv2 99.9%	48, 666サンプル/秒/GPU	46, 259 クエリ/秒/GPU	**
ささやき	5, 667トークン/秒/GPU	**	**
R-GAT	81, 404サンプル/秒/GPU	**	**
レチナネット	1, 875サンプル/秒/GPU	1, 801 クエリ/秒/GPU	**

さらに、NVIDIA の Blackwell Ultra は、MLPerf で新しい推論ベンチマークを確立し、オフラインモードで従来の Hopper アーキテクチャを 4.7 倍、サーバー構成で 5.2 倍上回り、効率が大幅に向上したことを示しています。

DeepSeek-R1のパフォーマンス比較
建築	オフライン	サーバ
ホッパー	1, 253トークン/秒/GPU	556トークン/秒/GPU
ブラックウェルウルトラ	5, 842トークン/秒/GPU	2, 907トークン/秒/GPU
ブラックウェルウルトラアドバンテージ	4.7倍	5.2倍