Ultra-Upgrade von Microsoft Azure mit NVIDIA GB300 „Blackwell Ultra“-GPUs: 4600 GPUs für KI-Modelle mit über einer Billion Parametern

Ultra-Upgrade von Microsoft Azure mit NVIDIA GB300 „Blackwell Ultra“-GPUs: 4600 GPUs für KI-Modelle mit über einer Billion Parametern

Microsoft hat eine wichtige Ankündigung zu seiner Azure-Plattform gemacht und seinen ersten großen Produktionscluster vorgestellt, der NVIDIAs hochmoderne GB300 „Blackwell Ultra“-GPUs integriert. Dieser Fortschritt ist speziell für die Verarbeitung extrem großer KI-Modelle konzipiert.

NVIDIA GB300 „Blackwell Ultra“: Verbessertes KI-Training in der Azure-Plattform von Microsoft

Das Azure-Framework wurde um Blackwell Ultra erweitert. Es umfasst über 4.600 GPUs auf Basis der fortschrittlichen GB300 NVL72-Architektur von NVIDIA. Dieses Setup nutzt die hochmoderne InfiniBand-Verbindungstechnologie und erweitert Microsofts Möglichkeiten, Hunderttausende Blackwell Ultra-GPUs in seinen globalen Rechenzentren einzusetzen, die alle speziell für KI-Workloads eingesetzt werden.

Laut Microsoft kann der Einsatz des Azure-Clusters mit NVIDIA GB300 NVL72 „Blackwell Ultra“-GPUs die Modelltrainingszeit drastisch von mehreren Monaten auf wenige Wochen verkürzen. Dieser Fortschritt ermöglicht das Training von Modellen mit Hunderten von Billionen Parametern. NVIDIA hat auch bei Inferenzmetriken eine führende Leistung bewiesen, wie zahlreiche MLPerf-Benchmarks und die jüngsten InferenceMAX -KI-Tests belegen.

Die neu eingeführten virtuellen Maschinen (VMs) Azure ND GB300 v6 sind für eine Vielzahl fortschrittlicher Anwendungen optimiert, darunter Reasoning-Modelle, agentenbasierte KI-Systeme und multimodale generative KI-Aufgaben. Jedes Rack dieser Infrastruktur bietet Platz für 18 VMs mit jeweils 72 GPUs. Die folgenden Spezifikationen unterstreichen die Leistungsfähigkeit:

  • 72 NVIDIA Blackwell Ultra-GPUs gepaart mit 36 ​​NVIDIA Grace-CPUs.
  • 800 Gigabit pro Sekunde (Gbit/s) Cross-Rack-Scale-Out-Bandbreite über hochmodernes NVIDIA Quantum-X800 InfiniBand.
  • 130 Terabyte (TB) pro Sekunde NVIDIA NVLink-Bandbreite pro Rack.
  • 37 TB Hochgeschwindigkeitsspeicher.
  • Bis zu 1.440 Petaflops (PFLOPS) FP4 Tensor Core-Leistung.
Microsoft Azure erhält ein Ultra-Upgrade mit NVIDIAs GB300

Auf Rack-Ebene verbessern NVLink und NVSwitch die Speicherzuweisung und Bandbreite und ermöglichen eine beeindruckende Datenübertragung innerhalb des Racks von 130 TB pro Sekunde bei gleichzeitiger Anbindung von 37 TB schnellem Speicher. Diese architektonische Innovation verwandelt jedes Rack in eine integrierte Einheit und bietet einen höheren Inferenzdurchsatz und geringere Latenzzeiten für größere Modelle und erweiterte Kontextfenster. Diese Verbesserung unterstützt agentenbasierte und multimodale KI-Systeme und macht sie agiler und skalierbarer als je zuvor.

Um die Funktionalität über einzelne Racks hinaus zu erweitern, nutzt Azure eine leistungsstarke Fat-Tree-Netzwerkarchitektur mit NVIDIA Quantum-X800 Gbps InfiniBand. Dieses Design gewährleistet eine effiziente Skalierung für das Training extrem großer Modelle auf Zehntausende von GPUs bei gleichzeitiger Minimierung des Kommunikationsaufwands. Die Reduzierung des Synchronisierungsaufwands ermöglicht zudem eine optimale GPU-Auslastung und ermöglicht so beschleunigte Forschungszyklen und Kosteneffizienz trotz des hohen Rechenaufwands im Zusammenhang mit KI-Training. Der speziell entwickelte Azure-Stack mit benutzerdefinierten Protokollen und netzwerkinternen Rechenfunktionen garantiert hohe Zuverlässigkeit und effektive Ressourcennutzung. Technologien wie NVIDIA SHARP verbessern die kollektive Betriebsgeschwindigkeit und verdoppeln die effektive Bandbreite durch On-Switch-Berechnungen. Dadurch wird ein effizienteres Training und Inferenz im großen Maßstab ermöglicht.

Darüber hinaus umfasst Azures innovative Kühltechnik eigenständige Wärmetauscher und moderne Anlagenkühlungssysteme, die den Wasserverbrauch senken und gleichzeitig die thermische Stabilität in dichten Hochleistungsclustern wie dem GB300 NVL72 gewährleisten. Die kontinuierliche Weiterentwicklung und Anpassung von Stromverteilungsmodellen trägt zudem dem hohen Energiebedarf und den dynamischen Lastausgleichsanforderungen der GPU-Cluster der ND GB300 v6 VM-Klasse Rechnung.

über Microsoft

Wie NVIDIA betont, markiert diese Zusammenarbeit zwischen Microsoft Azure und NVIDIA einen entscheidenden Moment für die Führungsrolle der USA im KI-Sektor. Kunden können nun auf diese bahnbrechenden Azure-VMs zugreifen und sie für ihre Projekte nutzen.

Quelle & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert