
Meta hat wichtige Details zu seinem innovativen Catalina-KI-System bekannt gegeben, das die GB200 NVL72-Technologie von NVIDIA sowie Fortschritte bei Open Rack v3 und Flüssigkeitskühlsystemen nutzt.
Revolutionierung von Rechenzentren: Metas kundenspezifische NVIDIA GB200 NVL72 Blackwell-Plattform für den Catalina Pod
Im Jahr 2022 konzentrierte sich Meta vor allem auf GPU-Cluster mit typischerweise rund 6.000 Einheiten, die vor allem traditionelle Ranking- und Empfehlungsalgorithmen unterstützen sollten. Diese Cluster arbeiteten typischerweise mit Lasten von 128 bis 512 GPUs. Im vergangenen Jahr hat jedoch ein bemerkenswerter Wandel stattgefunden, der durch den explosionsartigen Anstieg der Generativen KI (GenAI) und großer Sprachmodelle (LLMs) vorangetrieben wurde.

Heute sind die GPU-Cluster von Meta auf beeindruckende 16.000 bis 24.000 GPUs angewachsen – eine Vervierfachung. Im letzten Jahr betrieb das Unternehmen über 100.000 GPUs und wächst stetig weiter. Dank Software-Weiterentwicklungen wie dem LLama-Modell prognostiziert Meta in naher Zukunft eine atemberaubende Verzehnfachung der Cluster-Größen.

Meta initiierte das Catalina-Projekt in enger Zusammenarbeit mit NVIDIA und nutzte die NVL72-GPU-Lösung als Basiselement. Es wurden Anpassungen vorgenommen, um das System an die spezifischen Anforderungen anzupassen. Beide Unternehmen steuerten Referenzdesigns für MGX und NVL72 zu einem Open-Source-Framework bei, das umfassenden Zugriff auf die Website des Open Compute Project ermöglichte.

Das Catalina-System repräsentiert die hochmodernen Bereitstellungen von Meta in seinen Rechenzentren, wobei jede Systemkonfiguration als „Pod“ bezeichnet wird. Dieses modulare Design ermöglicht die schnelle Skalierbarkeit von Systemen durch Duplizierung des Basis-Frameworks.


Ein besonderes Merkmal des maßgeschneiderten NVL72-Designs von Meta sind die dualen IT-Racks, die jeweils eine einzelne Scale-Up-Domäne mit 72 GPUs bilden. Die Konfiguration beider Racks ist konsistent und umfasst 18 Compute Trays im oberen und unteren Bereich sowie neun NV-Switches auf jeder Seite. Die Integration redundanter Verkabelung ist entscheidend, um die GPU-Ressourcen in beiden Racks zu vereinen und so effektiv eine einzige Computing-Domäne zu schaffen.

Jedes Rack ist zudem mit großen luftunterstützten Flüssigkeitskühlungseinheiten (ALC) ausgestattet, die für den Betrieb mit hoher Leistungsdichte ausgelegt sind. Diese Konfiguration ermöglicht Meta die effiziente Implementierung von Flüssigkeitskühlsystemen in Rechenzentren in Nordamerika und weltweit.

Mit diesen Doppelracks kann Meta die CPU-Anzahl effektiv verdoppeln und die Speicherkapazität maximieren. Dadurch sind bis zu 34 TB LPDDR-Speicher pro Rack möglich, wodurch insgesamt 48 TB cache-kohärenter Speicher entsteht, auf den sowohl GPUs als auch CPUs zugreifen können. Die Netzteile arbeiten entweder mit 480 Volt oder 277 Volt einphasig und wandeln diese in 48 Volt Gleichstrom um, der alle Server-Blades, Netzwerkgeräte und NV-Switches innerhalb der Architektur mit Strom versorgt.





Darüber hinaus verfügt die Konfiguration über ein Netzteilfach oben und unten in jedem Rack, ergänzt durch zusätzliche Einheiten an der Basis. Meta hat ein spezielles Glasfaser-Panel implementiert, das die gesamte interne Glasfaserverkabelung mit dem Backend-Netzwerk verwaltet und eine reibungslose Verbindung zu den Endpunkt-Switches gewährleistet, die den Scale-up-Bereich ermöglichen.

Zur Unterstützung der robusten Infrastruktur hat Meta fortschrittliche Technologien des NVIDIA NVL72 GB200 Blackwell-Systems integriert und einzigartige Verbesserungen wie leistungsstarke Netzteile und Blades integriert. Flüssigkeitskühlsysteme in Verbindung mit dem Rack Management Controller (RMC) gewährleisten eine effiziente Verwaltung der Kühlprotokolle und überwachen gleichzeitig Leckagen.






Dieser markante Einsatz von Metas hochleistungsfähigem OpenRack v3 erhöht die Leistungsverteilung innerhalb der Racks auf beachtliche 94 kW bei 600 A und macht es damit kompatibel mit modernen Anlagen mit integrierten Flüssigkeitskühlsystemen. Die Steuerung des Flüssigkeitsflusses erfolgt effizient durch den RMC, der verschiedene Komponenten im Rack auf mögliche Lecks überwacht und gleichzeitig den optimalen Betrieb der Kühlsysteme orchestriert.

Darüber hinaus ermöglicht Metas Einsatz eines disaggregierten, geplanten Fabrics die Verbindung mehrerer Pods innerhalb einzelner Dateneinrichtungen und ermöglicht so ein skalierbares Modell, das mehrere Gebäude nahtlos miteinander verbinden kann. Diese Infrastruktur ist auf KI-Anwendungen zugeschnitten und verbessert die Kommunikation zwischen GPUs und die allgemeine Systemflexibilität.
Schreibe einen Kommentar