谷歌「不間斷」電源導致雲端服務中斷六小時

谷歌「不間斷」電源導致雲端服務中斷六小時

近期主要雲端服務中斷:微軟和谷歌

上週,Microsoft 365 在 9 日遭遇嚴重中斷,原因是 Exchange 管理中心 (EAC) 發生中斷。更糟的是,僅僅一天之後,用戶報告說由於平台出現漏洞,他們的家庭訂閱被鎖定。

同樣,Google Cloud 也無法避免中斷。上個月底,該平台遭遇重大事故,其不間斷電源(UPS)系統未能如預期運行,導致近六個半小時的長時間停電。此次中斷主要影響位於俄亥俄州哥倫布市的「us-east5-c」區域,該區域採用由 AMD EPYC 和 Intel Xeon 處理器驅動的系統。

了解 Google Cloud 中斷

在一篇詳細的支援文章中,Google澄清了這件事的時間軸和原因:

2025 年 3 月 29 日星期六,us-east5-c 區域的多個 Google Cloud Services 出現服務降級或不可用現象,持續時間為 6 小時 10 分鐘。

服務中斷的根本原因是該區域公用電力中斷,引發不間斷電源 (UPS) 系統的連鎖故障。該系統旨在在公用事業中斷期間維持電力,但遭遇了嚴重的電池故障,導致其無法發揮其基本作用。

此次 UPS 故障的直接後果是,受影響區域中的虛擬機器實例斷電,導致眾多客戶的服務中斷。此次中斷也導致了次要問題,例如影響網路通訊和效能的資料包遺失以及有限數量的儲存磁碟變得不可用。

回應和解決方案

谷歌隨後分享了解決中斷所採取的糾正措施:

為了減輕對某些服務的影響,Google工程師轉移了受影響位置的流量。他們成功繞過了發生故障的 UPS,並於 3 月 29 日星期六美國太平洋時間 14:49 透過發電機恢復了供電。

大多數 Google Cloud 服務隨後不久就恢復了,但由於需要人工幹預,部分服務需要延長恢復時間。

致力於改進

谷歌向其雲端客戶發出了誠摯的訊息,對這次中斷事件表示歉意,並概述了防止未來再次發生此類事件的主動措施:

對於在此次中斷期間服務受到影響的 Google Cloud 客戶,我們深感抱歉。這不是我們努力為您提供的品質和可靠性水平,我們正在立即採取措施來提高平台的效能和可用性。

Google 決心避免此問題再次發生,並承諾採取以下措施:

  • 加強電力故障恢復協議,確保恢復電力後更快、更可靠地恢復服務。
  • 對未自動故障轉移的系統進行審核,以解決阻礙此功能的任何缺陷。
  • 與我們的 UPS 供應商合作調查並解決電池備用系統中遇到的問題。

我們致力於不斷改進我們的技術和運營,以防止未來服務中斷。我們非常感謝您的耐心,並再次為此事件可能對貴組織造成的影響表示歉意。我們感謝您一直以來的支持。

更多資訊

關於最近中斷的全面詳細資訊可以在 Google 雲端狀態網站上的支援文章中找到。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *