配电系统故障导致微软数据中心停电

在本周发布的一份事件报告中,该公司表示,2023 年 10 月 20 日 UTC 时间 07:31 至 09:15 期间,“电源问题”影响了荷兰西欧地区单个可用区的部分客户。包括应用服务、Cosmos DB、SQL DB、存储和虚拟机在内的服务受到影响。微软表示,它已检测到公用电网以电压骤降/骤升的形式影响到 AZ-01 可用区内的数据中心之一。因此,该公司决定将负载从电网转移到备用发电机,但发电机启动出现问题导致一些机架停电。

 

“在此过程中,配电系统的一部分发生了严重故障,导致我们 10% 的发电机无法带载。此故障导致主配电系统脱机,并且冗余系统无法访问。由于这次故障,该可用区中大约 1% 的服务器机架断电。”分发失败的性质和原因没有详细说明。随着电网稳定下来,该公司从发电机切换回市电。“总共有五个存储规模单位受到此事件的影响。电力恢复后,四个节点在 UTC 时间 09:10 完全恢复,而第五个节点则需要对其约 5% 的存储节点进行硬件诊断和部件更换,”该公司在事件报告中表示。“因此,恢复最后 <1% 的存储帐户的可用性需要更长的时间,这对依赖此最终存储规模单元的客户和服务产生了下游影响。到 14:30 UTC,除少数存储帐户外,所有帐户的可用性均已恢复,到 17:10 UTC,完全恢复已完成。”

 

微软表示,将在未来几周内发布第二份影响报告,详细介绍更多细节/经验教训,包括与该事件相关的修复项目,以及下游服务的任何潜在修复项目,以便更快地从此类场景中恢复。西欧 Azure 区域于 2010 年开放。它拥有三个可用区。8 月下旬,澳大利亚公用事业中断导致悉尼的微软数据中心停电。雷雨期间冷水机离线,无法自动重启,导致停电。

THE END