
就在不久前,我们还在向Hacker News (HN) 的用户介绍我们新推出的低端机型。现在,突然传来消息,HN 服务器发生了双重磁盘故障。这次双重磁盘故障导致 HN 服务器宕机约 8 小时。
什么是“双盘故障”?正如我们在HN 简介文章中所述, HN 运行在从M5 Hosting 租用的两台服务器上。一台是主服务器,另一台是备用服务器。主服务器和备用服务器都配备了镜像 SSD 硬盘。通常情况下,只有一台服务器在使用,每天处理 HN 大约 600 万个请求。
7月8日发生的事情似乎是,主服务器的两块硬盘先发生故障,几个小时后,备用服务器的两块硬盘也相继损坏。这看起来像是双重硬盘故障!尽管本文附带的推特截图中只提到了“第二块硬盘故障”,但故障总数似乎是四块。
原因似乎是固态硬盘的制造问题。以下是HN版主dang和M5用户mikiem对HN成员kabdib提出的固态硬盘故障可能是由制造缺陷造成的建议的回应。显然,一个软件漏洞导致所有四块固态硬盘在大约运行40000小时后全部损坏。
进一步的讨论表明,每台服务器上似乎都有两块硬盘发生故障,总共出现了四次故障(双盘灾难)。此外,该讨论还链接到思科于 2021 年发布的现场通知 FN 70545,该通知将制造缺陷描述为“行业范围内的固件索引错误”。
冗余设备显然能提供额外的安全保障。但以前,至少对我而言,两件制造工艺相同的设备同时发生故障似乎远没有那么显而易见。我一直认为,第二套设备能大大提高安全性。
几年前,我托管网站的共享主机服务器上发生了双硬盘故障。说实话,当我收到下面这张技术支持邮件时,我简直不敢相信会发生这种事。然而,故障发生在Interserver。由于 Interserver 的员工超级友好、乐于助人且能力出众,他们一直是我最喜欢的托管公司。所以我把这次双硬盘故障归结为一次不可思议的巧合,然后找回了备份,重新安装了服务器。
现在,多亏了HN大会上发生的事情以及大家精彩的讨论,我才明白双倍硬件配置并非万无一失,也并非认为几乎不可能同时发生双硬盘故障。即使是双倍配置,双硬盘故障也确实会发生!现在我更加渴望拥有更多格式不同、存储方式不同的备份。备份很重要!现在或许正是进行另一次备份的好时机!:)
