Googleの「無停電」電源が6時間にわたるクラウド障害を引き起こす

Googleの「無停電」電源が6時間にわたるクラウド障害を引き起こす

主要クラウドサービスの最近の障害:MicrosoftとGoogle

先週9日、Microsoft 365はExchange管理センター(EAC)の障害により深刻な障害に見舞われました。さらに事態を悪化させたのは、わずか翌日、プラットフォームに影響するバグにより、ファミリー向けサブスクリプションにアクセスできなくなったというユーザーからの報告です。

同様に、Google Cloudも障害から逃れることはできません。先月末、同プラットフォームは無停電電源装置(UPS)システムが想定通りに動作しなくなり、約6時間半に及ぶ長時間の障害に見舞われるという重大なインシデントに見舞われました。この障害は主に、AMD EPYCおよびIntel Xeonプロセッサを搭載したシステムを使用している、オハイオ州コロンバスにある「us-east5-c」ゾーンに影響を与えました。

Google Cloud の障害について

Google は詳細なサポート記事で、このインシデントのタイムラインと原因を明らかにしました。

2025 年 3 月 29 日土曜日、us-east5-c ゾーンの複数の Google Cloud サービスで、6 時間 10 分間、サービスの低下または利用不能が発生しました。

サービス中断の根本的な原因は、当該ゾーンにおける商用電源の喪失に起因し、無停電電源装置(UPS)システム内で連鎖的な障害が発生しました。このシステムは、商用電源の停電時に電力供給を維持するように設計されていますが、バッテリーに重大な障害が発生し、その重要な役割を果たすことができなくなりました。

このUPS障害の直接的な結果として、影響を受けたゾーンの仮想マシンインスタンスが電力を失い、多数のお客様のサービスが停止しました。また、パケットロスによるネットワーク通信とパフォーマンスへの影響、一部のストレージディスクが利用できなくなるなどの二次的な問題も発生しました。

対応と解決

Google はその後、この障害に対処するために講じた是正措置を公開しました。

一部サービスへの影響を軽減するため、Googleのエンジニアは影響を受けた場所からトラフィックを迂回させました。3月29日(土)14時49分(米国太平洋標準時)までに、故障したUPSを迂回し、発電機による電力復旧に成功しました。

ほとんどの Google Cloud サービスはその後すぐに回復しましたが、一部のサービスでは手動による介入が必要になったため、復旧に長い時間がかかりました。

改善への取り組み

Google は、クラウド顧客への誠実なメッセージの中で、今回の障害について謝罪し、将来のインシデントを防ぐための積極的な対策を概説しました。

この度の障害によりサービスに影響が生じたGoogle Cloudのお客様各位に心よりお詫び申し上げます。これは、私たちがお客様にご提供したいと願う品質と信頼性のレベルには達しておりません。プラットフォームのパフォーマンスと可用性を向上させるため、直ちに対策を講じております。

Google は、この問題の再発を回避することを決意しており、以下の措置を講じることをお約束します。

  • 停電回復プロトコルを強化し、電力回復後のサービスの回復をより迅速かつ確実にします。
  • 自動的にフェイルオーバーされなかったシステムの監査を実施し、この機能を妨げるギャップに対処します。
  • UPS ベンダーと協力して、バッテリ バックアップ システム内で発生した問題を調査して解決します。

今後のサービス中断を防ぐため、技術と運用の改善に継続的に取り組んでおります。ご不便をおかけして申し訳ございませんが、ご理解とご協力を賜りますようお願い申し上げます。また、今回の事象がお客様の組織に及ぼした影響について、改めてお詫び申し上げます。今後とも変わらぬご支援を賜りますようお願い申し上げます。

詳細情報

最近の障害に関する包括的な詳細は、Google の Cloud ステータス ウェブサイトのサポート記事でご覧いただけます

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です