亚马逊位于俄亥俄州的数据中心今天发生重大故障。亚马逊报告称,“美国东部第二区域(US-EAST-2)内的一个可用区(USE2-AZ1)中的部分实例出现断电”。
对于大型用户来说,这可能根本算不上什么大问题,因为他们通常拥有多个可用区等等,很可能只会检测到故障然后继续运行。但值得注意的是,有 38 个不同的服务受到了影响——从部署工具到 EC2 镜像,再到弹性容器和他们的区块链数据库(量子账本),应有尽有。
此次断电影响了受影响可用区内单个数据中心的部分区域。目前,受影响设施的电力已恢复,大部分受影响的 EC2 实例也已恢复。我们预计将在未来一小时内恢复绝大多数 EC2 实例。对于需要立即恢复的客户,我们建议将故障转移至其他可用区,因为其他可用区不受此问题影响。
我发现其中一句话很有意思:
虽然绝大多数 Lambda 函数仍在正常运行,但有些函数出现了调用失败和延迟的情况,但我们预计这种情况会在接下来的 30 分钟内得到改善。
即使您选择了美国东部地区,这并不意味着您的 Lambda 函数就会失败。根据亚马逊的说法:
Lambda 会在多个可用区运行您的函数,以确保在单个可用区发生服务中断时,该函数仍可用于处理事件。
总的来说,我怀疑美国东部很多竞选的人会在接下来的 24 小时内开会讨论他们基础设施中一些他们认为是高可用性但实际上并非如此的部分。
奇怪的是,这种服务中断反而可能会促进AWS的销售。他们拥有大量忠实用户,这些用户现在会为了更高的可用性而付费。
