L’alimentation électrique « sans interruption » de Google provoque une panne de six heures dans le cloud

L’alimentation électrique « sans interruption » de Google provoque une panne de six heures dans le cloud

Pannes récentes dans les principaux services cloud : Microsoft et Google

La semaine dernière, Microsoft 365 a connu une perturbation importante le 9, causée par une panne du Centre d’administration Exchange (CAE).Le lendemain, des utilisateurs ont signalé avoir été exclus de leurs abonnements familiaux en raison d’un bug affectant la plateforme.

De même, Google Cloud n’est pas à l’abri des pannes. Fin mars, la plateforme a subi un incident majeur : son système d’alimentation sans interruption (ASI) n’a pas fonctionné comme prévu, provoquant une panne prolongée de près de six heures et demie. Cette perturbation a principalement touché la zone « us-east5-c » située à Columbus, dans l’Ohio, qui utilise des systèmes équipés de processeurs AMD EPYC et Intel Xeon.

Comprendre la panne de Google Cloud

Dans un article d’assistance détaillé, Google a clarifié la chronologie et la cause de cet incident :

Le samedi 29 mars 2025, plusieurs services Google Cloud dans la zone us-east5-c ont connu une dégradation du service ou une indisponibilité pendant une durée de 6 heures et 10 minutes.

La cause principale de l’interruption de service est une panne de courant dans cette zone, qui a déclenché une panne en cascade du système d’alimentation sans interruption (ASI).Ce système, conçu pour maintenir l’alimentation en cas de panne de courant, a subi une panne de batterie critique, l’empêchant de remplir son rôle essentiel.

Conséquence directe de cette panne d’onduleur, les instances de machines virtuelles de la zone affectée ont été privées d’alimentation, ce qui a entraîné des interruptions de service pour de nombreux clients. Cette panne a également entraîné des problèmes secondaires, tels que des pertes de paquets affectant la communication et les performances du réseau, ainsi que l’indisponibilité d’un nombre limité de disques de stockage.

Réponse et résolution

Google a depuis partagé les mesures correctives prises pour remédier à la panne :

Afin de limiter l’impact sur certains services, les ingénieurs de Google ont détourné le trafic du site concerné. Ils ont réussi à contourner l’onduleur défaillant et à rétablir le courant via un générateur le samedi 29 mars à 14h49 (heure du Pacifique).

La plupart des services Google Cloud ont récupéré peu de temps après, même si certains ont nécessité un temps de restauration prolongé en raison de la nécessité d’une intervention manuelle.

Engagement d’amélioration

Dans un message sincère adressé à ses clients Cloud, Google a présenté ses excuses pour la perturbation et a décrit des mesures proactives pour prévenir de futurs incidents :

Nous présentons nos plus sincères excuses à nos clients Google Cloud dont les services ont été impactés par cette interruption. Ce niveau de qualité et de fiabilité ne correspond pas à nos attentes, et nous prenons immédiatement des mesures pour améliorer les performances et la disponibilité de la plateforme.

Google est déterminé à éviter que ce problème ne se reproduise et s’est engagé à prendre les mesures suivantes :

  • Renforcement du protocole de récupération après panne de courant pour garantir une restauration du service plus rapide et plus fiable après le rétablissement du courant.
  • Réalisation d’un audit des systèmes qui n’ont pas basculé automatiquement, en comblant les lacunes qui ont entravé cette fonctionnalité.
  • Collaborer avec notre fournisseur UPS pour enquêter et résoudre les problèmes rencontrés dans le système de secours sur batterie.

Nous nous engageons à améliorer continuellement notre technologie et nos opérations afin d’éviter toute interruption de service future. Nous vous remercions sincèrement de votre patience et vous prions de nous excuser une fois de plus pour l’impact que cet incident a pu avoir sur votre organisation. Nous vous remercions de votre soutien continu.

Pour plus d’informations

Des détails complets concernant la récente panne peuvent être trouvés dans l’article d’assistance ici sur le site Web d’état du Cloud de Google.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *