Metas Catalina Pod AI-System integriert NVIDIA Blackwell GB200 NVL72, Open Rack v3 und fortschrittliche Flüssigkeitskühlungstechnologie

Metas Catalina Pod AI-System integriert NVIDIA Blackwell GB200 NVL72, Open Rack v3 und fortschrittliche Flüssigkeitskühlungstechnologie

Meta hat wichtige Details zu seinem innovativen Catalina-KI-System bekannt gegeben, das die GB200 NVL72-Technologie von NVIDIA sowie Fortschritte bei Open Rack v3 und Flüssigkeitskühlsystemen nutzt.

Revolutionierung von Rechenzentren: Metas kundenspezifische NVIDIA GB200 NVL72 Blackwell-Plattform für den Catalina Pod

Im Jahr 2022 konzentrierte sich Meta vor allem auf GPU-Cluster mit typischerweise rund 6.000 Einheiten, die vor allem traditionelle Ranking- und Empfehlungsalgorithmen unterstützen sollten. Diese Cluster arbeiteten typischerweise mit Lasten von 128 bis 512 GPUs. Im vergangenen Jahr hat jedoch ein bemerkenswerter Wandel stattgefunden, der durch den explosionsartigen Anstieg der Generativen KI (GenAI) und großer Sprachmodelle (LLMs) vorangetrieben wurde.

Wachstum der KI-Clustergröße nach Jahren

Heute sind die GPU-Cluster von Meta auf beeindruckende 16.000 bis 24.000 GPUs angewachsen – eine Vervierfachung. Im letzten Jahr betrieb das Unternehmen über 100.000 GPUs und wächst stetig weiter. Dank Software-Weiterentwicklungen wie dem LLama-Modell prognostiziert Meta in naher Zukunft eine atemberaubende Verzehnfachung der Cluster-Größen.

Zusammenarbeit von Meta, NVIDIA und Open Compute Project

Meta initiierte das Catalina-Projekt in enger Zusammenarbeit mit NVIDIA und nutzte die NVL72-GPU-Lösung als Basiselement. Es wurden Anpassungen vorgenommen, um das System an die spezifischen Anforderungen anzupassen. Beide Unternehmen steuerten Referenzdesigns für MGX und NVL72 zu einem Open-Source-Framework bei, das umfassenden Zugriff auf die Website des Open Compute Project ermöglichte.

IT-Racks für Rechenzentren

Das Catalina-System repräsentiert die hochmodernen Bereitstellungen von Meta in seinen Rechenzentren, wobei jede Systemkonfiguration als „Pod“ bezeichnet wird. Dieses modulare Design ermöglicht die schnelle Skalierbarkeit von Systemen durch Duplizierung des Basis-Frameworks.

NVIDIA MGX GB200-Systemkonfiguration
Meta Catalina-Konfiguration mit Grace CPU

Ein besonderes Merkmal des maßgeschneiderten NVL72-Designs von Meta sind die dualen IT-Racks, die jeweils eine einzelne Scale-Up-Domäne mit 72 GPUs bilden. Die Konfiguration beider Racks ist konsistent und umfasst 18 Compute Trays im oberen und unteren Bereich sowie neun NV-Switches auf jeder Seite. Die Integration redundanter Verkabelung ist entscheidend, um die GPU-Ressourcen in beiden Racks zu vereinen und so effektiv eine einzige Computing-Domäne zu schaffen.

Vergleich der NVIDIA- und Meta GB200 NVL72-Ressourcen

Jedes Rack ist zudem mit großen luftunterstützten Flüssigkeitskühlungseinheiten (ALC) ausgestattet, die für den Betrieb mit hoher Leistungsdichte ausgelegt sind. Diese Konfiguration ermöglicht Meta die effiziente Implementierung von Flüssigkeitskühlsystemen in Rechenzentren in Nordamerika und weltweit.

Überblick zu Catalina Architecture

Mit diesen Doppelracks kann Meta die CPU-Anzahl effektiv verdoppeln und die Speicherkapazität maximieren. Dadurch sind bis zu 34 TB LPDDR-Speicher pro Rack möglich, wodurch insgesamt 48 TB cache-kohärenter Speicher entsteht, auf den sowohl GPUs als auch CPUs zugreifen können. Die Netzteile arbeiten entweder mit 480 Volt oder 277 Volt einphasig und wandeln diese in 48 Volt Gleichstrom um, der alle Server-Blades, Netzwerkgeräte und NV-Switches innerhalb der Architektur mit Strom versorgt.

Hochleistungs-Rack-Bereitstellung
Kühlsysteme für Rechenzentren
Leckerkennungssystem im Rechenzentrum
KI-optimiertes disaggregiertes Scheduled Fabric-Netzwerk
GPU-Netzwerkeinrichtung mit Catalina Interconnects

Darüber hinaus verfügt die Konfiguration über ein Netzteilfach oben und unten in jedem Rack, ergänzt durch zusätzliche Einheiten an der Basis. Meta hat ein spezielles Glasfaser-Panel implementiert, das die gesamte interne Glasfaserverkabelung mit dem Backend-Netzwerk verwaltet und eine reibungslose Verbindung zu den Endpunkt-Switches gewährleistet, die den Scale-up-Bereich ermöglichen.

Schema des Computerfachs

Zur Unterstützung der robusten Infrastruktur hat Meta fortschrittliche Technologien des NVIDIA NVL72 GB200 Blackwell-Systems integriert und einzigartige Verbesserungen wie leistungsstarke Netzteile und Blades integriert. Flüssigkeitskühlsysteme in Verbindung mit dem Rack Management Controller (RMC) gewährleisten eine effiziente Verwaltung der Kühlprotokolle und überwachen gleichzeitig Leckagen.

Meta Board vs. Nvidia GB200 Referenz
Nahaufnahme der PDB-Platine
Stromverteilungsdiagramm
Nahaufnahme der DC-SCM-Hardwareplatine
RMC-Design und Konnektivitätsdiagramm
Leckageerkennungsdiagramm

Dieser markante Einsatz von Metas hochleistungsfähigem OpenRack v3 erhöht die Leistungsverteilung innerhalb der Racks auf beachtliche 94 kW bei 600 A und macht es damit kompatibel mit modernen Anlagen mit integrierten Flüssigkeitskühlsystemen. Die Steuerung des Flüssigkeitsflusses erfolgt effizient durch den RMC, der verschiedene Komponenten im Rack auf mögliche Lecks überwacht und gleichzeitig den optimalen Betrieb der Kühlsysteme orchestriert.

Compute Tray-Architekturdiagramm

Darüber hinaus ermöglicht Metas Einsatz eines disaggregierten, geplanten Fabrics die Verbindung mehrerer Pods innerhalb einzelner Dateneinrichtungen und ermöglicht so ein skalierbares Modell, das mehrere Gebäude nahtlos miteinander verbinden kann. Diese Infrastruktur ist auf KI-Anwendungen zugeschnitten und verbessert die Kommunikation zwischen GPUs und die allgemeine Systemflexibilität.

Quelle & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert