NVIDIA enthüllt technische Einblicke in Blackwell GB200- und GB300-NVL-Racks, -Trays und die Open-Compute-Initiativen von MGX

NVIDIA hat kürzlich eine eingehende Analyse seiner Blackwell GB200- und GB300-Systeme durchgeführt und sich dabei auf deren Architekturdesign, Racks, Trays und Integration mit dem Open Compute Project (OCP) konzentriert.

NVIDIA stellt Blackwell-Architekturen und Open-Compute-Beiträge auf der Hot Chips 2025 vor

Auf der Veranstaltung Hot Chips 2025 erweiterte NVIDIA seine Vision für verbesserte Computing-Lösungen mit der Einführung der Blackwell Ultra-Plattform, nachdem im vergangenen Jahr die ersten Blackwell-Server erfolgreich auf den Markt gekommen waren. Maschinenbauingenieur John Norton hielt eine umfassende Präsentation über die Systeme GB200 und GB300 im Rahmen von NVIDIAs Engagement für offene Rechenstandards.

Die Präsentation begann mit einem detaillierten Überblick über die MGX-Architektur, die NVIDIA im vergangenen Jahr zum OCP beigesteuert hatte. Norton erläuterte die verschiedenen Hürden bei der Entwicklung der Modelle GB200 und GB300 und betonte die erforderliche Vielseitigkeit für eine Reihe von Anwendungen, die über KI und Inferenz hinausgehen.

NVIDIA GB200/300-Fallstudie von John Norton, Maschinenbauingenieur. Hot Chips-Präsentation 2025.

Die MGX-Architektur wurde speziell entwickelt, um die Komplexität der Skalierung von Beschleunigern für unterschiedliche Workloads weltweit zu bewältigen. Die Kundenanforderungen waren vielfältig und reichten von individuellen Netzwerkanforderungen bis hin zu maßgeschneiderten CPU- und GPU-Mischungen. NVIDIA implementierte daher einen iterativen Ansatz für die Systementwicklung, da bereits kleine Anpassungen erhebliche Auswirkungen auf das gesamte System haben konnten. Diese Erkenntnis führte zur Entwicklung der modularen MGX-Architektur.

Durch die Segmentierung des Systems in kleinere, interoperable Komponenten ermöglicht NVIDIA seinen Kunden, einzelne Elemente zu modifizieren, ohne das gesamte System überholen zu müssen. Dieser innovative Ansatz rationalisiert nicht nur die Anfangsinvestitionen, sondern fördert durch OCP auch eine flexible und offene Plattform, die kundenorientierte Anpassungen ermöglicht.

MGX-Einführung: Skalierbare GPU-zentrierte modulare Architektur für beschleunigte Computerlösungen.

Norton analysierte außerdem zwei kritische Komponenten des MGX-Frameworks: die MGX-Rack-Infrastruktur und die MGX-Rechner- und Switch-Trays, die für die Montage der GB200 „Blackwell“-Systeme von entscheidender Bedeutung sind. NVIDIAs Verwendung offener Designstandards ermöglicht Transparenz und Zugänglichkeit. NVIDIA bietet umfassende Modelle und Spezifikationen zum Download über OCP.

MGX-Computer-Rack- und Tray-Spezifikationen mit modularem Design für OCP-Beiträge.

Während der Präsentation gab NVIDIA die wichtigsten Spezifikationen der Plattformen GB200 und GB300 bekannt. Das Rack-Design umfasst oben Schalter, gefolgt von einem Netzteil, das Hochspannungs-Wechselstrom aus dem Rechenzentrum in Gleichstrom umwandelt und im gesamten System verteilt.

GB200/300-System-Rack-Layout mit NVLINK-Spinne und Netzteilen.

Die GB200-Konfiguration umfasst 300 Chips in zehn Compute Trays, ergänzt durch neun Switch Trays und weitere acht Compute Trays. Beeindruckend ist, dass jeder Compute Tray 80 FP4 Petaflops liefern kann, was zu einer Gesamtleistung von 1, 4 Exaflops beiträgt. Der Stromverbrauch des gesamten Systems beträgt rund 120 Kilowatt, wobei jeder Compute Tray rund 7 Kilowatt verbraucht und über das NVLink-Spine miteinander verbunden ist.

Übersichtsdiagramm zum GB200/300-Rack mit Abmessungen und Funktionen für den Einsatz im Unternehmen.

Der NVLink läuft mit beeindruckenden 200 Gb/s pro Lane und ermöglicht so eine latenzarme Kommunikation zwischen GPU- und Switch-Trays. Diese Kupferverbindung unterstreicht die Vorteile von Kupfer für die Datenübertragung mit hoher Bandbreite.

Diagramm des NVLINK Spine- und Flüssigkeitskühlsystems für verbesserte Rechenzentrumseffizienz.

NVIDIA stellte außerdem seinen Ansatz für Rack-Spezifikationen vor. Durch den Einsatz von Geräten in einem 48-Millimeter-Raster – etwas enger als der herkömmliche 44, 5-Millimeter-Raster für Standard-Unternehmenshardware – maximiert das Unternehmen die Knotendichte in seinen Racks und erzielt damit zahlreiche betriebliche Vorteile.

Diagramm der 19 RU-Vorteile für effiziente Rechen- und Verkabelungsdichte in Rechenzentren.

Außerdem wurde ein verbessertes Sammelschienendesign mit einer Kapazität von etwa 35 Kilowatt in Angriff genommen, das durch einen verbesserten Kupferquerschnitt auf bis zu 1.400 Ampere erweitert wurde, um einen höheren Strombedarf zu decken.

NVIDIA GB200/300 NVL Compute Tray PCIe-Topologiediagramm für 2P:4GPU-Verbindung.

Jedes Compute Tray integriert zwei CPUs und vier GPUs und verfügt über ein Host-Prozessor-Modul (HPM), das eine Grace-CPU und zwei Blackwell-GPUs unterstützt. Das innovative Design ermöglicht flexible Konnektivitätsoptionen und gewährleistet eine nahtlose Integration von E/A-Systemen.

Diagramm der MGX-Accelerated-Computing-Trays mit beschrifteten Komponenten.

Die Trays verfügen außerdem über anpassbare Konfigurationen für verschiedene Kühllösungen und Kabelmanagementoptionen, was die Modularität der Plattform für gezielte Anwendungen unterstreicht.

MGX Accelerated Computing Trays-Schalterfachdiagramm mit detaillierten Komponentenhighlights.

Die Rückseite des Computerfachs ist mit Universal Quick Disconnects (UQDs) ausgestattet, die von OCP standardisiert sind und eine vollständige Flüssigkeitskühlung für verbesserte Effizienz unterstützen.

Weiterentwicklung der Rechenzentrumsarchitektur mit NVLINK Fusion und fortschrittlicher Kühltechnologie.

Zusammenfassend hat NVIDIA bestätigt, dass sowohl die GB200- als auch die GB300-Systeme nun in voller Produktion sind und in verschiedenen Hyperscale-Rechenzentren weltweit eingesetzt werden. NVIDIA entwickelt jährlich Innovationen und verbessert Dichte, Energieeffizienz und Kühllösungen. Initiativen wie NVLink Fusion versprechen erhebliche Fortschritte bei der Datenverarbeitung.

Quelle & Bilder

NVIDIA enthüllt technische Einblicke in Blackwell GB200- und GB300-NVL-Racks, -Trays und die Open-Compute-Initiativen von MGX

NVIDIA stellt Blackwell-Architekturen und Open-Compute-Beiträge auf der Hot Chips 2025 vor

Ähnliche Artikel:

Metas Catalina Pod AI-System integriert NVIDIA Blackwell GB200 NVL72, Open Rack v3 und fortschrittliche Flüssigkeitskühlungstechnologie

SK hynix beginnt mit der Massenproduktion von 321-Layer-QLC-NAND-Flash für PCs mit innovativer 32-Layer-Stacking-Technologie

Schreibe einen Kommentar Antworten abbrechen