NVIDIA Blackwell vs. AMD MI325X: Neueste MLPerf-Inferenz-Benchmark-Ergebnisse zeigen, dass B200 Rekorde aufstellt, während Instinct mit Hopper konkurriert

NVIDIA und AMD haben kürzlich ihre neuesten Leistungskennzahlen für MLPerf Inference veröffentlicht und dabei ihre fortschrittlichen GPUs vorgestellt, darunter den Blackwell B200 und den Instinct MI325X.

NVIDIA Blackwell B200 und AMD Instinct MI325X: Die neuesten MLPerf-Inferenz-Benchmark-Ergebnisse

Die neu veröffentlichten Benchmarks von MLPerf Inference v5.0 zeigen deutliche Fortschritte, da beide GPU-Kraftpakete ihre neuesten Chip-Leistungskennzahlen präsentieren. Neben der reinen GPU-Leistung spielen auch die effektive Softwareoptimierung und die umfassende Unterstützung neuer KI-Ökosysteme eine entscheidende Rolle für diese Ergebnisse.

NVIDIA Blackwell erzielt beispiellose Leistung

Das innovative GB200 NVL72-System, das 72 NVIDIA Blackwell-Grafikprozessoren integriert und als eine einzige, umfassende GPU fungiert, erreichte im Llama 3.1 405B-Benchmark einen außergewöhnlichen, 30-fach höheren Durchsatz im Vergleich zum Vorgängermodell NVIDIA H200 NVL8. Diese bemerkenswerte Leistung ist auf eine mehr als dreifache Leistungssteigerung pro Grafikprozessor und eine deutlich erweiterte NVIDIA NVLink- Verbindungsdomäne zurückzuführen.

Obwohl zahlreiche Unternehmen MLPerf-Benchmarks zur Leistungsbewertung nutzen, haben nur NVIDIA und seine Partner Ergebnisse zum Llama 3.1 405B-Benchmark übermittelt.

Bei der Bereitstellung von Inferenz in der Produktion treten häufig Latenzprobleme bei kritischen Messgrößen auf. Die erste Messgröße ist die Time to First Token (TTFT), die angibt, wie lange es dauert, bis ein Benutzer eine Antwort von einem großen Sprachmodell erhält. Die zweite Messgröße ist die Time per Output Token (TPOT), die angibt, wie schnell Token an Benutzer übermittelt werden.

Der neue interaktive Benchmark von Llama 2 70B zeigt deutliche Verbesserungen mit einer fünffachen Reduzierung der TPOT und einer 4, 4-fachen Reduzierung der TTFT, was auf ein deutlich reaktionsschnelleres Benutzererlebnis hindeutet. In diesem Benchmark verdreifachte NVIDIAs Beitrag, angetrieben von einem NVIDIA DGX B200-System mit acht Blackwell-GPUs, seine Leistung im Vergleich zu einer H200-Konfiguration mit acht GPUs und setzte damit einen hohen Standard in diesem anspruchsvolleren Llama 2 70B-Test.

Die integrierten Funktionen der Blackwell-Architektur in Verbindung mit ihrem optimierten Software-Framework stellen einen Durchbruch in der Inferenzleistung dar und ermöglichen es KI-Fabriken, die Intelligenz zu verbessern, den Durchsatz zu erhöhen und die Token-Zustellungsraten zu beschleunigen.

über NVIDIA

NVIDIA, das grüne Team, beweist mit den neuesten Blackwell-GPUs, insbesondere der B200-Serie, erneut seine Leistungsdominanz. Das GB200 NVL72-Rack mit 72 B200-Chips führt das Feld an und erzielt in den Llama 3.1 405B-Benchmarks einen beeindruckenden, 30-fach höheren Durchsatz im Vergleich zur Vorgängergeneration H200. Die Llama 70B-Benchmark-Ergebnisse bestätigen zudem eine Verdreifachung der Leistung einer B200-Konfiguration mit acht GPUs gegenüber einem H200-Setup mit acht GPUs.

Darüber hinaus hat AMD seinen neuesten Instinct MI325X 256 GB-Beschleuniger in einer x8-Konfiguration vorgestellt. Obwohl AMDs Ergebnisse mit denen des H200-Systems vergleichbar sind, kommt die höhere Speicherkapazität großen Sprachmodellen (LLMs) deutlich zugute. Sie liegen jedoch immer noch hinter dem Blackwell B200. Um wettbewerbsfähig zu bleiben, muss AMD sowohl bei seinen Hardware- als auch bei seinen Software-Angeboten die Dynamik aufrechterhalten, insbesondere mit der erwarteten Einführung der Ultra-Plattform B300 im Laufe dieses Jahres.

Darüber hinaus deuten Benchmarks der Hopper H200-Serie auf kontinuierliche Optimierungsbemühungen hin, die zu einer bemerkenswerten Steigerung der Inferenzleistung um 50 Prozent im Vergleich zum Vorjahr führten. Diese Verbesserung ist für Unternehmen, die zunehmend auf diese Plattformen angewiesen sind, von großer Bedeutung.

Quelle & Bilder