
近期主要云服务中断:微软和谷歌
上周,Microsoft 365 在 9 日遭遇严重中断,原因是 Exchange 管理中心 (EAC) 发生故障。更糟糕的是,仅仅一天后,用户报告称由于平台漏洞,他们的家庭订阅被锁定。
同样,谷歌云也无法幸免于中断。上个月底,该平台遭遇了一次重大事故,其不间断电源 (UPS) 系统未能按预期运行,导致近六个半小时的长时间中断。此次中断主要影响了位于俄亥俄州哥伦布市的“us-east5-c”区域,该区域使用了搭载 AMD EPYC 和 Intel Xeon 处理器的系统。
了解 Google Cloud 中断
在一篇详细的支持文章中,谷歌澄清了这一事件的时间线和原因:
2025 年 3 月 29 日星期六,us-east5-c 区域的多个 Google Cloud Services 出现服务降级或不可用现象,持续时间为 6 小时 10 分钟。
服务中断的根本原因是该区域公用电力中断,引发了不间断电源 (UPS) 系统的连锁故障。该系统旨在在公用电力中断期间维持电力供应,但遭遇了严重的电池故障,导致其无法发挥其基本作用。
此次UPS故障直接导致受影响区域中的虚拟机实例断电,导致众多客户的服务中断。此次中断还引发了其他问题,例如数据包丢失影响了网络通信和性能,以及少量存储磁盘不可用。
响应和解决方案
谷歌随后分享了解决此次中断所采取的纠正措施:
为了减轻对某些服务的影响,谷歌工程师已将流量从受影响的地点转移。他们成功绕过了故障的UPS,并于3月29日星期六美国太平洋时间14:49通过发电机恢复了供电。
大多数 Google Cloud 服务随后不久就恢复了,但由于需要人工干预,部分服务需要延长恢复时间。
致力于改进
谷歌向其云客户发出了诚挚的讯息,对此次中断事件表示歉意,并概述了防止未来再次发生此类事件的主动措施:
对于在此次中断期间服务受到影响的 Google Cloud 客户,我们深表歉意。这与我们努力为您提供的质量和可靠性水平不符,我们正在立即采取措施,提升平台的性能和可用性。
Google 决心避免此问题再次发生,并承诺采取以下措施:
- 加强电力故障恢复协议,确保恢复电力后更快、更可靠地恢复服务。
- 对未自动故障转移的系统进行审核,解决阻碍此功能的任何缺陷。
- 与我们的 UPS 供应商合作调查并解决电池备用系统中遇到的问题。
我们致力于不断改进技术和运营,以防止未来再次出现服务中断。非常感谢您的耐心等待,并再次就此次事件可能对贵公司造成的影响表示歉意。感谢您一直以来的支持。
更多信息
关于最近中断的全面详细信息可以在 Google 云状态网站上的支持文章中找到。
发表回复 ▼