
NVIDIA hat kürzlich eine eingehende Analyse seiner Blackwell GB200- und GB300-Systeme durchgeführt und sich dabei auf deren Architekturdesign, Racks, Trays und Integration mit dem Open Compute Project (OCP) konzentriert.
NVIDIA stellt Blackwell-Architekturen und Open-Compute-Beiträge auf der Hot Chips 2025 vor
Auf der Veranstaltung Hot Chips 2025 erweiterte NVIDIA seine Vision für verbesserte Computing-Lösungen mit der Einführung der Blackwell Ultra-Plattform, nachdem im vergangenen Jahr die ersten Blackwell-Server erfolgreich auf den Markt gekommen waren. Maschinenbauingenieur John Norton hielt eine umfassende Präsentation über die Systeme GB200 und GB300 im Rahmen von NVIDIAs Engagement für offene Rechenstandards.
Die Präsentation begann mit einem detaillierten Überblick über die MGX-Architektur, die NVIDIA im vergangenen Jahr zum OCP beigesteuert hatte. Norton erläuterte die verschiedenen Hürden bei der Entwicklung der Modelle GB200 und GB300 und betonte die erforderliche Vielseitigkeit für eine Reihe von Anwendungen, die über KI und Inferenz hinausgehen.

Die MGX-Architektur wurde speziell entwickelt, um die Komplexität der Skalierung von Beschleunigern für unterschiedliche Workloads weltweit zu bewältigen. Die Kundenanforderungen waren vielfältig und reichten von individuellen Netzwerkanforderungen bis hin zu maßgeschneiderten CPU- und GPU-Mischungen. NVIDIA implementierte daher einen iterativen Ansatz für die Systementwicklung, da bereits kleine Anpassungen erhebliche Auswirkungen auf das gesamte System haben konnten. Diese Erkenntnis führte zur Entwicklung der modularen MGX-Architektur.
Durch die Segmentierung des Systems in kleinere, interoperable Komponenten ermöglicht NVIDIA seinen Kunden, einzelne Elemente zu modifizieren, ohne das gesamte System überholen zu müssen. Dieser innovative Ansatz rationalisiert nicht nur die Anfangsinvestitionen, sondern fördert durch OCP auch eine flexible und offene Plattform, die kundenorientierte Anpassungen ermöglicht.

Norton analysierte außerdem zwei kritische Komponenten des MGX-Frameworks: die MGX-Rack-Infrastruktur und die MGX-Rechner- und Switch-Trays, die für die Montage der GB200 „Blackwell“-Systeme von entscheidender Bedeutung sind. NVIDIAs Verwendung offener Designstandards ermöglicht Transparenz und Zugänglichkeit. NVIDIA bietet umfassende Modelle und Spezifikationen zum Download über OCP.

Während der Präsentation gab NVIDIA die wichtigsten Spezifikationen der Plattformen GB200 und GB300 bekannt. Das Rack-Design umfasst oben Schalter, gefolgt von einem Netzteil, das Hochspannungs-Wechselstrom aus dem Rechenzentrum in Gleichstrom umwandelt und im gesamten System verteilt.

Die GB200-Konfiguration umfasst 300 Chips in zehn Compute Trays, ergänzt durch neun Switch Trays und weitere acht Compute Trays. Beeindruckend ist, dass jeder Compute Tray 80 FP4 Petaflops liefern kann, was zu einer Gesamtleistung von 1, 4 Exaflops beiträgt. Der Stromverbrauch des gesamten Systems beträgt rund 120 Kilowatt, wobei jeder Compute Tray rund 7 Kilowatt verbraucht und über das NVLink-Spine miteinander verbunden ist.

Der NVLink läuft mit beeindruckenden 200 Gb/s pro Lane und ermöglicht so eine latenzarme Kommunikation zwischen GPU- und Switch-Trays. Diese Kupferverbindung unterstreicht die Vorteile von Kupfer für die Datenübertragung mit hoher Bandbreite.

NVIDIA stellte außerdem seinen Ansatz für Rack-Spezifikationen vor. Durch den Einsatz von Geräten in einem 48-Millimeter-Raster – etwas enger als der herkömmliche 44, 5-Millimeter-Raster für Standard-Unternehmenshardware – maximiert das Unternehmen die Knotendichte in seinen Racks und erzielt damit zahlreiche betriebliche Vorteile.

Außerdem wurde ein verbessertes Sammelschienendesign mit einer Kapazität von etwa 35 Kilowatt in Angriff genommen, das durch einen verbesserten Kupferquerschnitt auf bis zu 1.400 Ampere erweitert wurde, um einen höheren Strombedarf zu decken.

Jedes Compute Tray integriert zwei CPUs und vier GPUs und verfügt über ein Host-Prozessor-Modul (HPM), das eine Grace-CPU und zwei Blackwell-GPUs unterstützt. Das innovative Design ermöglicht flexible Konnektivitätsoptionen und gewährleistet eine nahtlose Integration von E/A-Systemen.

Die Trays verfügen außerdem über anpassbare Konfigurationen für verschiedene Kühllösungen und Kabelmanagementoptionen, was die Modularität der Plattform für gezielte Anwendungen unterstreicht.

Die Rückseite des Computerfachs ist mit Universal Quick Disconnects (UQDs) ausgestattet, die von OCP standardisiert sind und eine vollständige Flüssigkeitskühlung für verbesserte Effizienz unterstützen.

Zusammenfassend hat NVIDIA bestätigt, dass sowohl die GB200- als auch die GB300-Systeme nun in voller Produktion sind und in verschiedenen Hyperscale-Rechenzentren weltweit eingesetzt werden. NVIDIA entwickelt jährlich Innovationen und verbessert Dichte, Energieeffizienz und Kühllösungen. Initiativen wie NVLink Fusion versprechen erhebliche Fortschritte bei der Datenverarbeitung.
Schreibe einen Kommentar