Cloudflare回应数据中心中断原因
Cloudflare 将11 月 2 日的停电归咎于俄勒冈州希尔斯伯勒的 Flexential 数据中心的电源故障。这家内容交付网络(CDN)、安全和边缘计算公司声称出现了一系列故障,导致其服务离线。在一份冗长的事后分析中,首席执行官 Matthew Prince 解释说,PDX-DC04 设施是 Cloudflare 控制平面和分析系统的主要数据中心。希尔斯伯勒附近的另外两个数据中心也处理该服务。
Cloudflare 消耗 PDX-DC04 总容量的约 10%。“世界标准时间 11 月 2 日 08:50 为 PDX-04 提供服务的公用事业公司波特兰通用电气 (PGE) 发生了一次计划外维护事件,影响了他们进入大楼的一个独立电源。该事件关闭了 PDX 的一个电源- 04,”普林斯说。Prince 声称 Flexential 为其发电机供电,以补充冗余供电,但表示该公司没有通知 Cloudflare。“如果他们通知我们,我们就会成立一个团队来密切监视该设施,并在该设施退化时将依赖于该设施的控制飞机服务移出。”Prince 补充说,Flexential 不完全转向发电机的做法很不寻常,并推测 Flexential 是 PGE 可调度备用发电机 (DSG) 计划的一部分,并正在使用其发电机帮助向电网提供额外电力。
Flexential 的首席运营官 Ryan Mallory 称:“数据中心提供商与公用事业公司合作向电网提供容量的情况有多种。PGE 几年前就遇到过山火问题,希尔斯伯勒地区的电力线路被毁。 .因此,如果电网出现问题,可以采取这些类型的方案来支持电力公司。”然而,当被直接问到 DSG 方案在停电之前是否正在使用时,他说:“我不准备解决这个问题,目前仍在与 PGE 合作。”无论发电机和馈电组合的原因是什么,随后 PDX-04 的 PGE 变压器发生接地故障。Prince 表示:“虽然我们尚未能够与 Flexential 或 PGE 确认,但接地故障似乎是由 PGE 执行的计划外维护影响了第一次馈电而造成的。”保护措施使发电机和供电装置离线,这意味着该设施没有电力。
一组 UPS 电池原本可以持续 10 分钟,以便 Flexential 有足够的时间让发电机工作,但“电池在仅仅四分钟后就开始失效,”Prince 声称。“Flexential 花了远远超过 10 分钟才恢复发电机。”他补充道:“虽然我们还没有得到官方确认,但员工告诉我们,有三件事阻碍了发电机重新上线。首先,由于接地故障导致电路跳闸,需要对发电机进行物理访问和手动重新启动。 “其次,Flexential 的访问控制系统不是由备用电池供电,因此处于离线状态。第三,现场的夜间值班人员不包括经验丰富的操作人员或电气专家 - 夜间值班人员包括保安和无人陪伴的技术人员才上班一周。”Cloudflare 声称,它没有收到任何有关问题的通知,当其路由器开始出现故障时,它首先发现了问题。
当发电机恢复后,连接到 Cloudflare IT 的断路器被发现出现故障。普林斯说:“我们不知道断路器是否因接地故障或事故造成的其他电涌而失效,或者断路器之前是否已经损坏,直到断电后才发现。” 。由于 Flexential 手头没有足够的替代品,因此恢复它们需要时间。