NVIDIA Blackwell Ultra steigert die Leistung agentenbasierter KI: 50-mal höhere Tokens/Watt-Rate und verbesserte Leistung bei Workloads mit langem Kontext

NVIDIA Blackwell Ultra steigert die Leistung agentenbasierter KI: 50-mal höhere Tokens/Watt-Rate und verbesserte Leistung bei Workloads mit langem Kontext

NVIDIA hat seine neueste Computing-Lösung für Hyperscaler vorgestellt: den Blackwell Ultra. Aktuelle Benchmarks des GB300 NVL72 belegen seine außergewöhnliche Leistungsfähigkeit, insbesondere bei Anwendungen mit geringer Latenz und umfangreichem Kontext.

Die KI-Landschaft hat seit ihrem Aufschwung im Jahr 2022 einen tiefgreifenden Wandel erlebt, insbesondere im Bereich des agentenbasierten Rechnens, das durch fortschrittliche Anwendungen und Frameworks ermöglicht wird. Für Infrastrukturanbieter wie NVIDIA ist die hohe Speicherbandbreite und -leistung entscheidend, um die strengen Latenzanforderungen dieser komplexen Systeme zu erfüllen. Die Blackwell Ultra-Serie von NVIDIA meistert diese Herausforderung mit Bravour. In einem kürzlich von NVIDIA in einem Blogbeitrag veröffentlichten Test erzielte die Blackwell Ultra herausragende Ergebnisse im InferenceMAX-Benchmark von SemiAnalysis.

Ein Liniendiagramm mit dem Titel „DeepSeekR1 Durchsatz pro MW“ zeigt, dass der GB300 NVL72 NVFP4 einen deutlich höheren Token-Durchsatz erreicht.

NVIDIA hebt eine entscheidende Kennzahl hervor, die als „Token/Watt“ bezeichnet wird und für die Entwicklung heutiger Hyperscaler von zentraler Bedeutung ist. Der Fokus auf sowohl gesteigerte Rohleistung als auch verbesserte Durchsatzraten ist deutlich erkennbar: Die GB300 NVL72 erzielt im Vergleich zu den Hopper-GPUs der vorherigen Generation eine bemerkenswerte 50-fache Steigerung des Durchsatzes pro Megawatt. Ein anschaulicher Vergleich zeigt den optimalen Betriebszustand der jeweiligen Architektur.

Wie erzielt NVIDIA solch enorme Durchsatzsteigerungen? Die Antwort liegt in der hochmodernen NVLink-Technologie. Der Blackwell Ultra verfügt über eine 72-GPU-Konfiguration, die in einem einzigen NVLink-Netzwerk vereint ist und beeindruckende Konnektivitätsraten von 130 TB/s bietet. Im Gegensatz dazu nutzt die Hopper-Serie ein 8-Chip-NVLink-Design, das zwar effektiv ist, aber nicht mit der innovativen Architektur und dem Layout des Blackwell Ultra mithalten kann. Darüber hinaus ist die Einführung des NVFP4-Präzisionsformats entscheidend und festigt die Dominanz der GB300-Serie in puncto Durchsatz.

Ein teilweise geöffnetes Serverrack gibt den Blick auf NVIDIA-Hardwarekomponenten und die darin befindliche Verkabelung frei.
Bildnachweis: NVIDIA

Mit dem Aufstieg von „agentischer KI“ hebt NVIDIA in seinen Bewertungen des GB300 NVL72 neben den bereits erwähnten Verbesserungen auch die Tokenkosten hervor. Team Green berichtet von einer signifikanten 35-fachen Senkung der Kosten pro Million Token und positioniert dieses System damit als erste Wahl für Inferenzaufgaben in zukunftsorientierten Forschungseinrichtungen und Hyperscalern. Da sich die Skalierungsgesetze in beispiellosem Tempo weiterentwickeln, führt NVIDIA diese Leistungssteigerungen auf seine Strategie des „extremen Co-Designs“ sowie auf das mittlerweile allgemein anerkannte Huangsche Gesetz zurück.

Ein Liniendiagramm mit dem Titel „GB300 NVL72 liefert großen Sprung für KI mit langem Kontext“ zeigt, dass GB300 NVL72 1, 5-mal niedrigere Kosten pro Token erreicht.

Beim Vergleich des GB300 NVL72 mit der Hopper-Serie ist es wichtig, die feinen Unterschiede in den Rechenknoten und Architekturen zu berücksichtigen. NVIDIA hat außerdem den GB200 mit dem GB300 NVL72 verglichen, um die Leistung bei Workloads mit langem Kontext zu bewerten. Kontextuelle Einschränkungen sind für Agenten weiterhin ein wichtiger Faktor, da die Verwaltung einer umfangreichen Codebasis den Tokenverbrauch exponentiell erhöhen kann. Mit Blackwell Ultra erzielt NVIDIA bis zu 1, 5-mal niedrigere Kosten pro Token und eine doppelt so schnelle Aufmerksamkeitsverarbeitung, wodurch sich die Technologie hervorragend für agentenzentrierte Aufgaben eignet.

Da Blackwell Ultra zunehmend in Hyperscaler-Umgebungen Einzug hält, stellen diese Benchmarks einige der ersten Evaluierungen dieser Architektur dar. Erste Ergebnisse deuten darauf hin, dass NVIDIA eine robuste Leistungsskalierung beibehalten hat, die mit modernen KI-Anwendungen kompatibel ist. Mit zukünftigen Weiterentwicklungen, wie sie beispielsweise von Vera Rubin erwartet werden, könnte die Blackwell-Generation NVIDIA im wettbewerbsintensiven Infrastrukturmarkt noch weiter nach vorn bringen.

Quellen & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert