NVIDIA、Blackwell GPUとMetaのLlama 4 Maverickで1,000TPSの壁を突破し、トークン速度記録を達成

NVIDIAは、Blackwellアーキテクチャの導入により、人工知能（AI）性能において飛躍的な進歩を遂げました。この革新は、一連の戦略的な最適化とハードウェア機能の強化によるところが大きいです。

ブラックウェルの進歩：大規模言語モデルのAIパフォーマンスの向上

AIの限界を常に押し広げるNVIDIAは、Blackwellテクノロジーで目覚ましい進歩を遂げてきました。先日のブログ投稿で、NVIDIAは8基のNVIDIA Blackwell GPUを搭載した単一のDGX B200ノードで、1秒あたり1, 000トークン（TP/S）という驚異的なマイルストーンを達成したことを発表しました。この成果は、Metaの4, 000億パラメータのLlama 4 Maverickモデルと連携して達成されたもので、NVIDIAのAIエコシステムが業界に及ぼす計り知れない影響を示しています。

この高度な構成により、NVIDIAのBlackwellサーバーは最大72, 000TP/秒という驚異的なパフォーマンスを実現します。Computexの基調講演でCEOのジェンスン・フアンが強調したように、企業はAIの進歩、特にトークン出力レートの面で、これまで以上にAIの進歩をアピールすることに意欲的です。この傾向は、NVIDIAがAI開発におけるこの特定の側面を強化することに強くコミットしていることを示しています。

このような画期的な速度の実現には、TensorRT-LLMと革新的な投機的デコードモデルをはじめとするソフトウェアの大幅な最適化が不可欠であり、その結果、パフォーマンスが4倍に高速化されました。NVIDIAのチームは、大規模な大規模言語モデル（LLM）向けにBlackwellを微調整する上で貢献した様々な要素を詳細に検証しました。重要なイノベーションの一つは、投機的デコードの使用です。これは、機敏な「ドラフト」モデルを用いて数トークン先を予測し、同時に主要（より大きな）モデルでこれらの予測を検証する手法です。

投機的デコーディングは、生成されるテキストの品質を損なうことなくLLMの推論速度を高速化するために用いられる一般的な手法です。この手法では、より小型で高速な「ドラフト」モデルを用いて投機的トークンのシーケンスを予測し、それをより大型の「ターゲット」LLMによって並列検証することで、この目的を達成します。

スピードアップは、ドラフトモデルのオーバーヘッドが余分にかかることを犠牲にして、1 回のターゲットモデルの反復で潜在的に複数のトークンを生成することによって実現されます。

– NVIDIA

さらに、NVIDIAはEAGLE3ベースのアーキテクチャを実装しました。これは、GPUハードウェアの進歩にのみ依存するのではなく、大規模言語モデルの推論プロセスを強化するために特別に設計されたソフトウェア重視のフレームワークです。これらの開発により、NVIDIAはAI分野におけるリーダーシップの地位を確立するだけでなく、BlackwellをLlama 4 Maverickのような主要なLLM向けに最適化されたソリューションとして位置付けています。このマイルストーンは、将来、より迅速かつシームレスなAIインタラクションを実現するための重要な一歩となります。

出典と画像