
Interrupções recentes nos principais serviços de nuvem: Microsoft e Google
Na semana passada, o Microsoft 365 sofreu uma interrupção significativa no dia 9, causada por uma interrupção no Centro de Administração do Exchange (EAC).Para agravar o problema, apenas um dia depois, usuários relataram ter sido bloqueados de suas assinaturas familiares devido a um bug que afetava a plataforma.
Da mesma forma, o Google Cloud não está imune a interrupções. No final do mês passado, a plataforma sofreu um incidente grave quando seu sistema de alimentação ininterrupta (UPS) não funcionou como esperado, resultando em uma interrupção prolongada de quase seis horas e meia. Essa interrupção afetou principalmente a zona “us-east5-c”, localizada em Columbus, Ohio, que utiliza sistemas equipados com processadores AMD EPYC e Intel Xeon.
Compreendendo a interrupção do Google Cloud
Em um artigo de suporte detalhado, o Google esclareceu o cronograma e a causa deste incidente:
No sábado, 29 de março de 2025, vários serviços do Google Cloud na zona us-east5-c apresentaram degradação de serviço ou indisponibilidade por um período de 6 horas e 10 minutos.
A causa raiz da interrupção do serviço foi a queda de energia elétrica naquela zona, que desencadeou uma falha em cascata no sistema de alimentação ininterrupta (UPS).Este sistema foi projetado para manter a energia durante interrupções na rede elétrica, mas sofreu uma falha crítica na bateria, impossibilitando-o de cumprir sua função essencial.
Como resultado direto dessa falha no UPS, as instâncias de máquinas virtuais na zona afetada ficaram sem energia, causando indisponibilidade do serviço para diversos clientes. Essa interrupção também causou problemas secundários, como perda de pacotes, que afetaram a comunicação e o desempenho da rede, além da indisponibilidade de um número limitado de discos de armazenamento.
Resposta e Resolução
O Google compartilhou as ações corretivas tomadas para resolver a interrupção:
Para amenizar o impacto em determinados serviços, os engenheiros do Google desviaram o tráfego do local afetado. Eles contornaram com sucesso a falha do nobreak e restauraram a energia por meio de um gerador às 14h49 (horário do Pacífico) do sábado, 29 de março.
A maioria dos serviços do Google Cloud se recuperou logo depois, embora alguns tenham exigido um tempo de restauração mais longo devido à necessidade de intervenção manual.
Compromisso com a Melhoria
Em uma mensagem sincera aos seus clientes do Cloud, o Google pediu desculpas pela interrupção e descreveu medidas proativas para evitar incidentes futuros:
Aos nossos clientes do Google Cloud, cujos serviços foram afetados durante essa interrupção, pedimos sinceras desculpas. Este não é o nível de qualidade e confiabilidade que buscamos oferecer, e estamos tomando medidas imediatas para aprimorar o desempenho e a disponibilidade da plataforma.
O Google está determinado a evitar a recorrência desse problema e se comprometeu a tomar as seguintes ações:
- Fortalecer o protocolo de recuperação de falha de energia para garantir uma restauração de serviço mais rápida e confiável após o restabelecimento da energia.
- Realizar uma auditoria dos sistemas que não realizaram failover automaticamente, abordando quaisquer lacunas que obstruíssem essa funcionalidade.
- Colaborar com nosso fornecedor de UPS para investigar e resolver os problemas encontrados no sistema de backup de bateria.
Estamos empenhados em aprimorar continuamente nossa tecnologia e operações para evitar futuras interrupções de serviço. Agradecemos imensamente sua paciência e pedimos desculpas mais uma vez pelo impacto que este incidente possa ter tido em sua organização. Agradecemos seu apoio contínuo.
Para maiores informações
Detalhes completos sobre a recente interrupção podem ser encontrados no artigo de suporte aqui no site de status do Google Cloud.
Deixe um comentário