Microsoft stellt neue Azure AI Superfactory-Architektur vor

Microsoft kündigt neuen Azure AI-Rechenzentrumsstandort in Atlanta an

Heute hat Microsoft offiziell Pläne für ein neues Azure-KI-Rechenzentrum in Atlanta, Georgia, vorgestellt. Diese hochmoderne Anlage wird mit dem bestehenden Standort in Fairwater, Wisconsin, sowie mehreren Azure-KI-Supercomputern verbunden. Ziel ist die Entwicklung eines umfassenden, globalen KI-Rechenzentrums, das eine Vielzahl von KI-Aufgaben effizient bewältigen kann.

Innovatives Design revolutioniert KI-Rechenzentren

Aufbauend auf den Erkenntnissen aus dem Bau von Rechenzentren, die speziell auf die Trainingsanforderungen von OpenAI und andere KI-Anwendungen zugeschnitten sind, behauptet Microsoft, die Architektur von KI-Rechenzentren revolutioniert zu haben. Das neue Design der KI-Rechenzentren zeichnet sich durch eine flache Netzwerkstruktur aus, die die Rechenleistung zahlreicher NVIDIA GB200- und GB300-GPUs nutzt und so eine beispiellose Performance ermöglicht.

Hauptmerkmale des neuen Rechenzentrums

Das kommende Rechenzentrum in Atlanta wird mehrere bahnbrechende Merkmale aufweisen, die es von seinen Vorgängern unterscheiden:

Hohe GPU-Dichte: Speziell entwickelte Racks, die optimal für eine maximale GPU-Platzierung angeordnet sind, wodurch die Latenz minimiert und die GPU-Kommunikation verbessert wird.
Geschlossenes Flüssigkeitskühlsystem: Ein innovatives, abgedichtetes Kühlsystem, das Wasser spart, indem es denselben Vorrat über sechs Jahre mit minimaler Verdunstung nutzt und so die Nachhaltigkeit fördert und gleichzeitig Hochleistungsrechner unterstützt.
Robuste Stromversorgung: Mit beeindruckenden ~140 kW pro Rack und ~1, 36 MW pro Reihe ist dieses Setup so konzipiert, dass es Beschleuniger der nächsten Generation aufnehmen kann, ohne auf herkömmliche Leistungsbeschränkungen zu stoßen.
Flaches Netzwerk mit hoher Bandbreite: Durch die Integration eines zweistufigen Ethernet-Frameworks, das 800-Gbit/s-GPU-Konnektivität sowie SONiC-basiertes Netzwerk bietet, zielt dieses Design darauf ab, Kosten, Komplexität und die Abhängigkeit von bestimmten Anbietern zu minimieren.
Anwendungsorientierte Netzwerkoptimierung: Funktionen wie Echtzeit-Paketmanagement und ausgeklügelter Lastausgleich sorgen dafür, dass große GPU-Cluster optimal ausgelastet bleiben.
KI-WAN im planetaren Maßstab: Die Verbindung mehrerer Standorte, darunter Atlanta und Wisconsin, über ein dediziertes optisches Backbone mit niedriger Latenz schafft einen zusammenhängenden „Supercomputer“, der sich über mehrere Regionen erstreckt.
Resilientes Energiemodell: Dieser Ansatz nutzt leistungsstarke lokale Energienetze für eine erhöhte Zuverlässigkeit und integriert Energiespeicherlösungen, um sich an Schwankungen im Leistungsbedarf der Arbeitslast anzupassen.
Unterstützung vielseitiger KI-Workloads: Die Infrastruktur ist so konzipiert, dass sie eine Vielzahl von KI-Aufgaben – von Vortraining und Feinabstimmung bis hin zu Reinforcement Learning, Inferenz und der Generierung synthetischer Daten – effektiv auf einer einheitlichen Plattform ausführen kann.

Positionierung für die zukünftige Nachfrage nach KI-Workloads

Mit der Einrichtung eines einheitlichen, regionsübergreifenden Supercomputers positioniert sich Microsoft strategisch, um den in den kommenden Jahren zu erwartenden steigenden Bedarf an KI-Workflows im großen Maßstab zu decken.

Quellen & Bilder