
NVIDIA hat seinen hochmodernen KI-Chip, den Blackwell Ultra GB300, vorgestellt, der eine bemerkenswerte Leistungssteigerung von 50 % gegenüber seinem Vorgänger, dem GB200, und beeindruckende 288 GB Speicher bietet.
Wir stellen NVIDIAs Blackwell Ultra „GB300“ vor: Ein revolutionärer KI-Chip
NVIDIA veröffentlichte kürzlich einen ausführlichen Artikel über die Spezifikationen und Funktionen des Blackwell Ultra GB300. Dieser hochmoderne Chip befindet sich derzeit in Massenproduktion und wird an ausgewählte Kunden ausgeliefert. Der Blackwell Ultra bietet im Vergleich zu den vorherigen Blackwell-Modellen eine deutliche Leistungssteigerung und verbesserte Funktionen.

Parallelen zur Super-Serie von NVIDIA, die die ursprünglichen RTX-Gaming-Karten verbesserte, erweitert die Ultra-Serie die bisherigen KI-Chip-Angebote. Während frühere Produktlinien wie Hopper und Volta keine Ultra-Funktionen besaßen, legten ihre Weiterentwicklungen den Grundstein für die aktuellen Innovationen. Darüber hinaus sind durch Software-Updates und Optimierungen auch für Nicht-Ultra-Modelle erhebliche Verbesserungen möglich.

Der Blackwell Ultra GB300 ist eine Weiterentwicklung, die zwei Reticle-große Chips kombiniert, die über NVIDIAs bandbreitenstarke NV-HBI-Schnittstelle verbunden sind und als einheitliche GPU fungieren. Der Chip basiert auf der 4NP-Prozesstechnologie von TSMC (einer optimierten Version des 5-nm-Knotens), beherbergt beeindruckende 208 Milliarden Transistoren und bietet eine außergewöhnliche Leistung mit einer Bandbreite von 10 TB/s zwischen den beiden Chips.

Die GPU ist mit 160 Streaming-Multiprozessoren (SMs) mit jeweils insgesamt 128 CUDA-Kernen ausgestattet. Sie umfasst vier Tensor-Kerne der 5. Generation, die Präzisionsberechnungen mit FP8, FP6 und NVFP4 unterstützen. Dieses Design führt zu insgesamt 20.480 CUDA-Kernen und 640 Tensor-Kernen sowie 40 MB Tensor-Speicher (TMEM).
Besonderheit | Trichter | Blackwell | Blackwell Ultra |
---|---|---|---|
Herstellungsprozess | TSMC 4N | TSMC 4NP | TSMC 4NP |
Transistoren | 80B | 208B | 208B |
Dies pro GPU | 1 | 2 | 2 |
NVFP4 dichte | spärliche Leistung | – | 10 | 20 PetaFLOPS | 15 | 20 PetaFLOPS |
FP8 dichte | spärliche Leistung | 2 | 4 PetaFLOPS | 5 | 10 PetaFLOPS | 5 | 10 PetaFLOPS |
Achtung Beschleunigung (SFU EX2) | 4, 5 TeraExponentiale/s | 5 TeraExponentiale/s | 10, 7 TeraExponentiale/s |
Max. HBM-Kapazität | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | 288 GB HBM3E |
Maximale HBM-Bandbreite | 3, 35 TB/s (H100) 4, 8 TB/s (H200) | 8 TB/s | 8 TB/s |
NVLink-Bandbreite | 900 GB/s | 1.800 GB/s | 1.800 GB/s |
Maximale Leistung (TGP) | Bis zu 700 W | Bis zu 1.200 W | Bis zu 1.400 W |
Die Innovationen der Tensor-Kerne der 5. Generation sind entscheidend für KI-Berechnungen. NVIDIA hat diese Kerne konsequent weiterentwickelt, was zu Folgendem führt:
- NVIDIA Volta: Einführung von 8-Thread-MMA-Einheiten und Unterstützung für FP16-Berechnungen.
- NVIDIA Ampere: Verbessert mit vollem Warp-weitem MMA, BF16 und TensorFloat-32.
- NVIDIA Hopper: Einführung von Warp-Group-MMA über 128 Threads und Transformer Engine mit FP8-Unterstützung.
- NVIDIA Blackwell: Mit Transformer Engine der 2. Generation und verbesserten FP8- und FP6-Rechenfunktionen.

Der Blackwell Ultra Chip erhöht die Speicherkapazität deutlich: Von maximal 192 GB bei den Blackwell GB200-Modellen auf beeindruckende 288 GB HBM3e. Dieser Sprung ermöglicht die Unterstützung massiver KI-Modelle mit mehreren Billionen Parametern. Seine Speicherarchitektur umfasst acht Stacks mit einem 512-Bit-Controller, der mit 8 TB/s arbeitet und Folgendes ermöglicht:
- Vollständige Modellanpassung: Fähigkeit, über 300 Milliarden Parametermodelle zu verarbeiten, ohne den Speicher zu entlasten.
- Erweiterte Kontextlängen: Verbesserte KV-Cache-Kapazität für Transformatoranwendungen.
- Verbesserte Rechenleistung: Erhöhte Rechenleistung-zu-Speicher-Verhältnisse für verschiedene Arbeitslasten.

Die Blackwell-Architektur verfügt über robuste Verbindungen, darunter NVLINK, NVLINK-C2C und eine PCIe Gen6 x16-Schnittstelle, und bietet die folgenden Spezifikationen:
- Bandbreite pro GPU: 1, 8 TB/s bidirektional (18 Links x 100 GB/s).
- Leistungsverbesserung: 2-fache Steigerung gegenüber NVLink 4 (im Vergleich zu Hopper).
- Maximale Topologie: Unterstützt bis zu 576 GPUs in einem nicht blockierenden Compute Fabric.
- Rack-Scale-Integration: Ermöglicht Konfigurationen von 72 GPUs mit einer Gesamtbandbreite von 130 TB/s.
- PCIe-Schnittstelle: Gen6 mit 16 Lanes und einem bidirektionalen Durchsatz von 256 GB/s.
- NVLink-C2C: Erleichtert die Kommunikation zwischen CPU und GPU mit Speicherkohärenz bei 900 GB/s.
Verbinden | Hopper-GPU | Blackwell-GPU | Blackwell Ultra GPU |
---|---|---|---|
NVLink (GPU-GPU) | 900 | 1.800 | 1.800 |
NVLink-C2C (CPU-GPU) | 900 | 900 | 900 |
PCIe-Schnittstelle | 128 (Gen 5) | 256 (Gen 6) | 256 (Gen 6) |
NVIDIAs Blackwell Ultra GB300 erreicht durch die Einführung des neuen NVFP4-Standards eine bemerkenswerte Steigerung der Dense Low Precision Compute-Leistung um 50 % und bietet eine Genauigkeit nahe FP8 mit minimalen Abweichungen (weniger als 1 %).Diese Weiterentwicklung reduziert zudem den Speicherbedarf im Vergleich zu FP8 um das bis zu 1, 8-Fache und im Vergleich zu FP16 um das 3, 5-Fache.

Blackwell Ultra integriert außerdem ein ausgeklügeltes Terminplanungsmanagement sowie Sicherheitsfunktionen auf Unternehmensebene, darunter:
- Verbesserte GigaThread-Engine: Ein erweiterter Scheduler, der die Arbeitslastverteilung optimiert und die Kontextwechselleistung über alle 160 SMs hinweg verbessert.
- Multi-Instance-GPU (MIG): Möglichkeit, GPUs in verschiedene MIG-Instanzen zu partitionieren, was maßgeschneiderte Speicherzuweisungen für sichere Mandantenfähigkeit ermöglicht.
- Vertrauliches Computing: Vorkehrungen für die sichere Handhabung sensibler KI-Modelle durch Nutzung der hardwarebasierten Trusted Execution Environment (TEE) und sicherer NVLink-Operationen ohne nennenswerte Leistungseinbußen.
- Erweiterter NVIDIA Remote Attestation Service (RAS): Ein KI-gesteuertes Überwachungssystem, das die Zuverlässigkeit durch Vorhersage von Fehlern und Optimierung der Wartung verbessert.
Die Leistungseffizienz wird mit dem Blackwell Ultra GB300 deutlich verbessert und bietet im Vergleich zum GB200 ein höheres TPS/MW, wie in den folgenden Diagrammen dargestellt:




Zusammenfassend lässt sich sagen, dass NVIDIA weiterhin führend in der KI-Technologie ist, wie die Blackwell- und Blackwell-Ultra-Architekturen zeigen. Ihr Engagement für verbesserte Softwareunterstützung und -optimierungen sichert einen starken Wettbewerbsvorteil, unterstützt durch kontinuierliche Forschung und Entwicklung, die verspricht, NVIDIA auch in den kommenden Jahren an der Spitze der Branche zu halten.
Schreibe einen Kommentar