Googles „unterbrechungsfreie“ Stromversorgung verursacht sechsstündigen Cloud-Ausfall

Googles „unterbrechungsfreie“ Stromversorgung verursacht sechsstündigen Cloud-Ausfall

Jüngste Ausfälle bei wichtigen Cloud-Diensten: Microsoft und Google

Letzte Woche kam es am 9.zu einer erheblichen Störung bei Microsoft 365. Diese wurde durch einen Ausfall im Exchange Admin Center (EAC) verursacht. Erschwerend kam hinzu, dass Nutzer nur einen Tag später berichteten, sie seien aufgrund eines Fehlers auf der Plattform von ihren Familienabonnements ausgeschlossen worden.

Auch Google Cloud ist nicht immun gegen Ausfälle. Ende letzten Monats kam es auf der Plattform zu einem erheblichen Zwischenfall, als die unterbrechungsfreie Stromversorgung (USV) nicht wie vorgesehen funktionierte. Dies führte zu einem längeren Ausfall von fast sechseinhalb Stunden. Diese Störung betraf vor allem die Zone „us-east5-c“ in Columbus, Ohio, die Systeme mit AMD EPYC- und Intel Xeon-Prozessoren nutzt.

Den Google Cloud-Ausfall verstehen

In einem ausführlichen Support-Artikel erläuterte Google den zeitlichen Ablauf und die Ursache dieses Vorfalls:

Am Samstag, den 29. März 2025, kam es bei mehreren Google Cloud-Diensten in der Zone us-east5-c für die Dauer von 6 Stunden und 10 Minuten zu einer Leistungseinschränkung oder Nichtverfügbarkeit.

Die Hauptursache für die Unterbrechung war ein Stromausfall in der betroffenen Zone, der einen kaskadierenden Ausfall der unterbrechungsfreien Stromversorgung (USV) auslöste. Dieses System ist für die Aufrechterhaltung der Stromversorgung bei Stromausfällen ausgelegt, erlitt jedoch einen kritischen Batterieausfall und konnte seine wichtige Funktion nicht mehr erfüllen.

Als direkte Folge dieses USV-Ausfalls fiel die Stromversorgung virtueller Maschinen in der betroffenen Zone aus, was zu Serviceausfällen bei zahlreichen Kunden führte. Dieser Ausfall verursachte auch Folgeprobleme wie Paketverluste, die die Netzwerkkommunikation und -leistung beeinträchtigten, sowie den Ausfall einer begrenzten Anzahl von Speicherplatten.

Antwort und Lösung

Google hat seitdem die zur Behebung des Ausfalls ergriffenen Korrekturmaßnahmen bekannt gegeben:

Um die Auswirkungen auf bestimmte Dienste zu verringern, leiteten die Google-Ingenieure den Datenverkehr vom betroffenen Standort um. Sie umgingen erfolgreich die ausgefallene USV und stellten die Stromversorgung über einen Generator am Samstag, den 29. März, um 14:49 Uhr (US/Pazifik) wieder her.

Die meisten Google Cloud-Dienste wurden kurz darauf wiederhergestellt, bei einigen war jedoch aufgrund der Notwendigkeit manueller Eingriffe eine längere Wiederherstellungszeit erforderlich.

Verpflichtung zur Verbesserung

In einer aufrichtigen Nachricht an seine Cloud-Kunden entschuldigte sich Google für die Störung und skizzierte proaktive Schritte zur Vermeidung zukünftiger Vorfälle:

Wir entschuldigen uns aufrichtig bei unseren Google Cloud-Kunden, deren Dienste von dieser Störung betroffen waren. Dies entspricht nicht dem Qualitäts- und Zuverlässigkeitsniveau, das wir Ihnen bieten möchten. Wir ergreifen umgehend Maßnahmen, um die Leistung und Verfügbarkeit der Plattform zu verbessern.

Google ist entschlossen, ein erneutes Auftreten dieses Problems zu vermeiden und hat sich zu folgenden Maßnahmen verpflichtet:

  • Stärkung des Wiederherstellungsprotokolls nach einem Stromausfall, um nach Wiederherstellung der Stromversorgung eine schnellere und zuverlässigere Wiederherstellung des Dienstes zu gewährleisten.
  • Durchführen einer Prüfung der Systeme, bei denen kein automatisches Failover durchgeführt wurde, und Beheben aller Lücken, die diese Funktionalität behinderten.
  • Wir arbeiten mit unserem USV-Anbieter zusammen, um die im Batterie-Backup-System aufgetretenen Probleme zu untersuchen und zu beheben.

Wir sind bestrebt, unsere Technologie und unseren Betrieb kontinuierlich zu verbessern, um zukünftige Serviceunterbrechungen zu vermeiden. Wir danken Ihnen für Ihre Geduld und entschuldigen uns nochmals für die Auswirkungen, die dieser Vorfall auf Ihr Unternehmen hatte. Wir danken Ihnen für Ihre anhaltende Unterstützung.

Weitere Informationen

Ausführliche Informationen zum jüngsten Ausfall finden Sie im Support-Artikel hier auf der Cloud-Status-Website von Google.

Quelle & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert