구글의 ‘무정전’ 전력 공급으로 인해 6시간 동안 클라우드 서비스가 중단되었습니다.

구글의 ‘무정전’ 전력 공급으로 인해 6시간 동안 클라우드 서비스가 중단되었습니다.

최근 주요 클라우드 서비스에서 발생한 중단: Microsoft 및 Google

지난주 Microsoft 365는 9일 Exchange 관리 센터(EAC)의 중단으로 인해 심각한 장애를 겪었습니다.더욱 심각한 문제는 불과 하루 후, 플랫폼에 영향을 미치는 버그로 인해 가족 구독이 차단되었다는 사용자들의 신고였습니다.

마찬가지로 Google Cloud도 서비스 중단의 영향을 받습니다.지난달 말, Google Cloud는 무정전 전원 공급 장치(UPS) 시스템이 제대로 작동하지 않아 심각한 사고를 겪었고, 이로 인해 약 6시간 30분에 달하는 장기 서비스 중단이 발생했습니다.이 장애는 주로 AMD EPYC 및 Intel Xeon 프로세서 기반 시스템을 사용하는 오하이오주 콜럼버스에 위치한 “us-east5-c” 존에 영향을 미쳤습니다.

Google Cloud 서비스 중단 이해

Google은 자세한 지원 문서에서 이 사고의 타임라인과 원인을 명확히 밝혔습니다.

2025년 3월 29일 토요일, us-east5-c 지역의 여러 Google Cloud 서비스에서 6시간 10분 동안 서비스 저하 또는 이용 불가 현상이 발생했습니다.

서비스 중단의 근본 원인은 해당 지역의 공공 전력 공급 중단으로 인해 무정전 전원 공급 장치(UPS) 시스템 내에서 연쇄적인 장애가 발생한 데에서 비롯되었습니다.이 시스템은 공공 전력 공급 중단 시 전력을 유지하도록 설계되었지만, 심각한 배터리 고장으로 인해 필수적인 역할을 수행할 수 없게 되었습니다.

UPS 장애의 직접적인 결과로, 영향을 받은 영역의 가상 머신 인스턴스가 정전되어 수많은 고객에게 서비스 중단이 발생했습니다.또한, 패킷 손실로 인해 네트워크 통신 및 성능에 영향을 미치고, 제한된 수의 스토리지 디스크를 사용할 수 없게 되는 등 2차적인 문제가 발생했습니다.

대응 및 해결

그 이후 Google은 서비스 중단 문제를 해결하기 위해 취한 시정 조치를 공유했습니다.

특정 서비스에 미치는 영향을 줄이기 위해 Google 엔지니어들은 영향을 받은 위치에서 트래픽을 우회시켰습니다.3월 29일 토요일 오후 2시 49분(미국 태평양 시간)까지 고장 난 UPS를 우회하여 발전기를 통해 전력을 복구했습니다.

대부분의 Google Cloud 서비스는 그 직후에 복구되었지만, 일부는 수동 개입이 필요했기 때문에 복구에 오랜 시간이 걸렸습니다.

개선에 대한 헌신

Google은 클라우드 고객에게 진심 어린 메시지를 보내 서비스 중단에 대한 사과를 표하고 향후 사고를 방지하기 위한 사전 조치를 설명했습니다.

이번 서비스 중단으로 인해 Google Cloud 서비스에 차질이 발생하신 고객 여러분께 진심으로 사과드립니다.현재로서는 저희가 제공해 드리고자 하는 품질과 안정성 수준에 미치지 못하며, 플랫폼의 성능과 가용성을 개선하기 위해 즉각적인 조치를 취하고 있습니다.

Google은 이 문제가 다시 발생하지 않도록 최선을 다해 다음과 같은 조치를 취하고 있습니다.

  • 전력 공급이 복구된 후 더 빠르고 안정적으로 서비스를 복구할 수 있도록 전력 장애 복구 프로토콜을 강화합니다.
  • 자동으로 장애 조치되지 않는 시스템에 대한 감사를 실시하고, 이 기능을 방해하는 모든 격차를 해결합니다.
  • 배터리 백업 시스템에서 발생하는 문제를 조사하고 해결하기 위해 UPS 공급업체와 협력합니다.

향후 서비스 중단을 방지하기 위해 기술 및 운영을 지속적으로 개선하는 데 최선을 다하고 있습니다.양해해 주셔서 감사드리며, 이번 사고로 인해 귀사에 발생한 문제에 대해 다시 한번 사과드립니다.변함없는 성원에 감사드립니다.

더 많은 정보를 원하시면

최근 중단에 대한 자세한 내용은 Google Cloud 상태 웹사이트의 지원 문서 에서 확인할 수 있습니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다