MLPerf v5.1 AI推論ベンチマーク比較:NVIDIA Blackwell Ultra GB300とAMD Instinct MI355Xに注目

MLPerf v5.1 AI推論ベンチマーク比較:NVIDIA Blackwell Ultra GB300とAMD Instinct MI355Xに注目

最新のMLPerf v5.1 AI推論ベンチマークでは、NVIDIAとAMDの画期的なチップ、Blackwell Ultra GB300とInstinct MI355Xがデビューしました。これらの強力なプロセッサは、その卓越したパフォーマンス指標により、テクノロジーコミュニティで大きな話題を呼んでいます。

NVIDIA Blackwell Ultra GB300とAMD Instinct MI355X:AIパフォーマンスの新たなベンチマーク

MLCommonsは先日、 MLPerf v5.1ベンチマークを用いたAIパフォーマンスの最新評価を発表しました。NVIDIAとAMDの製品が特に優れた結果を示しました。Blackwell Ultra GB300とInstinct MI355Xは、それぞれのメーカーが提供するAIテクノロジーにおける最高峰製品として際立っています。本分析では、ベンチマークを通して実証されたこれらの製品の性能を詳細に検証します。

ブラックウェル ウルトラ GB300 パフォーマンスハイライト

DeepSeek R1(オフライン)カテゴリーにおいて、NVIDIAのGB300は前身のGB200を凌駕し、72GPU構成で45%、8GPU構成で44%という劇的なパフォーマンス向上を達成しました。これらの改善は、NVIDIAが予測するパフォーマンス向上とほぼ一致しています。

DeepSeek R1 (サーバー) カテゴリでは、Blackwell は 72 GPU でパフォーマンスが 25% 向上し、8 GPU 構成では 21% 向上するなど、目覚ましい進歩を遂げました。

AMDのInstinct MI355Xが市場に登場

AMD Instinct MI355Xも、特にLlama 3.1 405B(オフライン)ベンチマークにおいて大きな貢献を果たしました。GB200との比較評価では、27%という驚異的なパフォーマンス向上が示され、AMDのAI分野における進歩を実証しました。

さらに、Llama 2 70B (オフライン) を含むベンチマークでは、MI355X は 64 チップ構成で最大 648, 248 トークン/秒を生成し、8 チップ構成では NVIDIA GB200 の 2.09 倍という驚異的なパフォーマンス向上を示すなど、印象的なスループットを示しました。

NVIDIAは、Blackwell Ultra GB300プラットフォームで達成された様々な記録を含む、ベンチマークの詳細な分析を公開しました。これらの結果は、AI推論能力の大きな進歩を示しています。

Blackwell がパフォーマンス グラフのコンテキストで NVIDIA ロゴとともに Llama 3.1 405B インタラクティブ記録の見出しを設定しました。
画像ソース: NVIDIA

総合記録表

MLPerf 推論アクセラレータごとのレコード
ベンチマーク オフライン サーバ 相互の作用
ディープシーク-R1 5, 842トークン/秒/GPU 2, 907トークン/秒/GPU **
フレイム 3.1 405B 224トークン/秒/GPU 170トークン/秒/GPU 138トークン/秒/GPU
コール2 70B 99.9% 12, 934トークン/秒/GPU 12, 701トークン/秒/GPU 7, 856トークン/秒/GPU
コール2 70B 99% 13, 015トークン/秒/GPU 12, 701トークン/秒/GPU 7, 856トークン/秒/GPU
ラマ 3.1 8B 18, 370トークン/秒/GPU 16, 099トークン/秒/GPU 15, 284トークン/秒/GPU
安定拡散XL 4.07 サンプル/秒/GPU 3.59 クエリ/秒/GPU **
ミクストラル 8x7B 16, 099トークン/秒/GPU 16, 131トークン/秒/GPU **
DLRMv2 99% 87, 228サンプル/秒/GPU 80, 515サンプル/秒/GPU **
DLRMv2 99.9% 48, 666サンプル/秒/GPU 46, 259 クエリ/秒/GPU **
ささやき 5, 667トークン/秒/GPU ** **
R-GAT 81, 404サンプル/秒/GPU ** **
レチナネット 1, 875サンプル/秒/GPU 1, 801 クエリ/秒/GPU **

さらに、NVIDIA の Blackwell Ultra は、MLPerf で新しい推論ベンチマークを確立し、オフライン モードで従来の Hopper アーキテクチャを 4.7 倍、サーバー構成で 5.2 倍上回り、効率が大幅に向上したことを示しています。

DeepSeek-R1のパフォーマンス比較
建築 オフライン サーバ
ホッパー 1, 253トークン/秒/GPU 556トークン/秒/GPU
ブラックウェル ウルトラ 5, 842トークン/秒/GPU 2, 907トークン/秒/GPU
ブラックウェル ウルトラ アドバンテージ 4.7倍 5.2倍

今後の MLPerf の提出を楽しみにしていますが、NVIDIA、AMD、Intel は、この競争の激しい環境でさらに高いパフォーマンス レベルを目指して、プラットフォームの強化を継続すると予想されます。

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です