NVIDIA Blackwell Ultra „GB300“ GPU: Vorstellung des schnellsten KI-Chips mit Dual Reticle, 20.000+ Kernen, 288 GB HBM3e-Speicher mit 8 TB/s, 50 % schneller als GB200

NVIDIA hat seinen hochmodernen KI-Chip, den Blackwell Ultra GB300, vorgestellt, der eine bemerkenswerte Leistungssteigerung von 50 % gegenüber seinem Vorgänger, dem GB200, und beeindruckende 288 GB Speicher bietet.

Wir stellen NVIDIAs Blackwell Ultra „GB300“ vor: Ein revolutionärer KI-Chip

NVIDIA veröffentlichte kürzlich einen ausführlichen Artikel über die Spezifikationen und Funktionen des Blackwell Ultra GB300. Dieser hochmoderne Chip befindet sich derzeit in Massenproduktion und wird an ausgewählte Kunden ausgeliefert. Der Blackwell Ultra bietet im Vergleich zu den vorherigen Blackwell-Modellen eine deutliche Leistungssteigerung und verbesserte Funktionen.

Parallelen zur Super-Serie von NVIDIA, die die ursprünglichen RTX-Gaming-Karten verbesserte, erweitert die Ultra-Serie die bisherigen KI-Chip-Angebote. Während frühere Produktlinien wie Hopper und Volta keine Ultra-Funktionen besaßen, legten ihre Weiterentwicklungen den Grundstein für die aktuellen Innovationen. Darüber hinaus sind durch Software-Updates und Optimierungen auch für Nicht-Ultra-Modelle erhebliche Verbesserungen möglich.

NVIDIA Blackwell Ultra GPU-Diagramm mit detaillierten Architektur- und Konnektivitätsspezifikationen.

Der Blackwell Ultra GB300 ist eine Weiterentwicklung, die zwei Reticle-große Chips kombiniert, die über NVIDIAs bandbreitenstarke NV-HBI-Schnittstelle verbunden sind und als einheitliche GPU fungieren. Der Chip basiert auf der 4NP-Prozesstechnologie von TSMC (einer optimierten Version des 5-nm-Knotens), beherbergt beeindruckende 208 Milliarden Transistoren und bietet eine außergewöhnliche Leistung mit einer Bandbreite von 10 TB/s zwischen den beiden Chips.

Diagramm der NVIDIA Streaming Multiprocessor-Architektur mit CUDA- und Tensor-Kernen.

Die GPU ist mit 160 Streaming-Multiprozessoren (SMs) mit jeweils insgesamt 128 CUDA-Kernen ausgestattet. Sie umfasst vier Tensor-Kerne der 5. Generation, die Präzisionsberechnungen mit FP8, FP6 und NVFP4 unterstützen. Dieses Design führt zu insgesamt 20.480 CUDA-Kernen und 640 Tensor-Kernen sowie 40 MB Tensor-Speicher (TMEM).

Besonderheit	Trichter	Blackwell	Blackwell Ultra
Herstellungsprozess	TSMC 4N	TSMC 4NP	TSMC 4NP
Transistoren	80B	208B	208B
Dies pro GPU	1	2	2
NVFP4 dichte \| spärliche Leistung	–	10 \| 20 PetaFLOPS	15 \| 20 PetaFLOPS
FP8 dichte \| spärliche Leistung	2 \| 4 PetaFLOPS	5 \| 10 PetaFLOPS	5 \| 10 PetaFLOPS
Achtung Beschleunigung (SFU EX2)	4, 5 TeraExponentiale/s	5 TeraExponentiale/s	10, 7 TeraExponentiale/s
Max. HBM-Kapazität	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
Maximale HBM-Bandbreite	3, 35 TB/s (H100) 4, 8 TB/s (H200)	8 TB/s	8 TB/s
NVLink-Bandbreite	900 GB/s	1.800 GB/s	1.800 GB/s
Maximale Leistung (TGP)	Bis zu 700 W	Bis zu 1.200 W	Bis zu 1.400 W

Die Innovationen der Tensor-Kerne der 5. Generation sind entscheidend für KI-Berechnungen. NVIDIA hat diese Kerne konsequent weiterentwickelt, was zu Folgendem führt:

NVIDIA Volta: Einführung von 8-Thread-MMA-Einheiten und Unterstützung für FP16-Berechnungen.
NVIDIA Ampere: Verbessert mit vollem Warp-weitem MMA, BF16 und TensorFloat-32.
NVIDIA Hopper: Einführung von Warp-Group-MMA über 128 Threads und Transformer Engine mit FP8-Unterstützung.
NVIDIA Blackwell: Mit Transformer Engine der 2. Generation und verbesserten FP8- und FP6-Rechenfunktionen.

Vergleich des GPU-Speichers: Hopper H100 80 GB, Hopper H200 141 GB, Blackwell 192 GB, Blackwell Ultra 288 GB.

Der Blackwell Ultra Chip erhöht die Speicherkapazität deutlich: Von maximal 192 GB bei den Blackwell GB200-Modellen auf beeindruckende 288 GB HBM3e. Dieser Sprung ermöglicht die Unterstützung massiver KI-Modelle mit mehreren Billionen Parametern. Seine Speicherarchitektur umfasst acht Stacks mit einem 512-Bit-Controller, der mit 8 TB/s arbeitet und Folgendes ermöglicht:

Vollständige Modellanpassung: Fähigkeit, über 300 Milliarden Parametermodelle zu verarbeiten, ohne den Speicher zu entlasten.
Erweiterte Kontextlängen: Verbesserte KV-Cache-Kapazität für Transformatoranwendungen.
Verbesserte Rechenleistung: Erhöhte Rechenleistung-zu-Speicher-Verhältnisse für verschiedene Arbeitslasten.

Balkendiagramm zum Vergleich der GPU-Leistungsstufen von Dense FP8 und NVFP4.

Die Blackwell-Architektur verfügt über robuste Verbindungen, darunter NVLINK, NVLINK-C2C und eine PCIe Gen6 x16-Schnittstelle, und bietet die folgenden Spezifikationen:

Bandbreite pro GPU: 1, 8 TB/s bidirektional (18 Links x 100 GB/s).
Leistungsverbesserung: 2-fache Steigerung gegenüber NVLink 4 (im Vergleich zu Hopper).
Maximale Topologie: Unterstützt bis zu 576 GPUs in einem nicht blockierenden Compute Fabric.
Rack-Scale-Integration: Ermöglicht Konfigurationen von 72 GPUs mit einer Gesamtbandbreite von 130 TB/s.

PCIe-Schnittstelle: Gen6 mit 16 Lanes und einem bidirektionalen Durchsatz von 256 GB/s.
NVLink-C2C: Erleichtert die Kommunikation zwischen CPU und GPU mit Speicherkohärenz bei 900 GB/s.

Verbinden	Hopper-GPU	Blackwell-GPU	Blackwell Ultra GPU
NVLink (GPU-GPU)	900	1.800	1.800
NVLink-C2C (CPU-GPU)	900	900	900
PCIe-Schnittstelle	128 (Gen 5)	256 (Gen 6)	256 (Gen 6)

NVIDIAs Blackwell Ultra GB300 erreicht durch die Einführung des neuen NVFP4-Standards eine bemerkenswerte Steigerung der Dense Low Precision Compute-Leistung um 50 % und bietet eine Genauigkeit nahe FP8 mit minimalen Abweichungen (weniger als 1 %).Diese Weiterentwicklung reduziert zudem den Speicherbedarf im Vergleich zu FP8 um das bis zu 1, 8-Fache und im Vergleich zu FP16 um das 3, 5-Fache.

Diagramm des Blackwell KV-Cache-Aufmerksamkeitsmechanismus mit gebündelten MatMul-, Softmax- und Beschleunigungsindikatoren.

Blackwell Ultra integriert außerdem ein ausgeklügeltes Terminplanungsmanagement sowie Sicherheitsfunktionen auf Unternehmensebene, darunter:

Verbesserte GigaThread-Engine: Ein erweiterter Scheduler, der die Arbeitslastverteilung optimiert und die Kontextwechselleistung über alle 160 SMs hinweg verbessert.
Multi-Instance-GPU (MIG): Möglichkeit, GPUs in verschiedene MIG-Instanzen zu partitionieren, was maßgeschneiderte Speicherzuweisungen für sichere Mandantenfähigkeit ermöglicht.
Vertrauliches Computing: Vorkehrungen für die sichere Handhabung sensibler KI-Modelle durch Nutzung der hardwarebasierten Trusted Execution Environment (TEE) und sicherer NVLink-Operationen ohne nennenswerte Leistungseinbußen.
Erweiterter NVIDIA Remote Attestation Service (RAS): Ein KI-gesteuertes Überwachungssystem, das die Zuverlässigkeit durch Vorhersage von Fehlern und Optimierung der Wartung verbessert.

Die Leistungseffizienz wird mit dem Blackwell Ultra GB300 deutlich verbessert und bietet im Vergleich zum GB200 ein höheres TPS/MW, wie in den folgenden Diagrammen dargestellt:

Diagramm der Auswirkungen der Architektur auf die Inferenzleistung und die Pareto-Grenze der Benutzererfahrungssimulation.

Diagramm zum Einfluss der KI-Architektur auf die Inferenzleistung und das Benutzererlebnis bei Pareto Frontier.

Zusammenfassend lässt sich sagen, dass NVIDIA weiterhin führend in der KI-Technologie ist, wie die Blackwell- und Blackwell-Ultra-Architekturen zeigen. Ihr Engagement für verbesserte Softwareunterstützung und -optimierungen sichert einen starken Wettbewerbsvorteil, unterstützt durch kontinuierliche Forschung und Entwicklung, die verspricht, NVIDIA auch in den kommenden Jahren an der Spitze der Branche zu halten.

Quelle & Bilder