当网站的DNS服务器宕机时会发生什么? 当网站的DNS服务器宕机时会发生什么?

当网站的DNS服务器宕机时会发生什么?

域名空间图示

你好!

正如许多人所知,我很高兴能使用Porkbun提供的优质域名注册和DNS解析服务。尽管 Porkbun 的工作非常出色,但我的部分域名在 2022 年 9 月 6 日凌晨 1 点 49 分左右(UTC 时间)出现了大约 9.5 小时的 DNS 服务中断。

如下文所述, Hetrix Tools的正常运行时间监控服务为分析提供了有用的信息。

我很高兴发生了这起事件,因为它让我有机会更多地了解 DNS、事件报告和 DNS 故障预防。

DDoS攻击

Porkbun 的 DNS 服务器似乎遭受了分布式拒绝服务 (DDoS) 攻击。由于域名无法解析,此次 DDoS 攻击导致无法通过正常的域名连接到 MetalVPS 网站和 MetalVPS 服务器。但对于那些直接拥有数字 IP 地址的用户而言,在所有相关时间段内,仍可通过数字 IP 地址进行连接。

除了 MetalVPS 之外,我在 Porkbun 上的其他一些域名也受到了影响,但并非全部。此外,我的 MetalVPS 和个人邮箱服务也都无法使用。

开始时间通知

Hetrix Tools 于美国山区时间 9 月 5 日下午 6:48 发送了一封通知邮件。邮件报告称,其位于旧金山、新加坡和华沙的网站监控器在尝试连接 metalvps.com 时超时。网站监控邮件显示:“发现时间:2022-09-06 01:48:58 (UTC+00:00)”。

美国山区时间下午 6:55,Hetrix 发送了另一封电子邮件,报告纽约、旧金山、达拉斯和东京的 ping 监控器出现超时。ping 监控器邮件报告称:“注意到时间:2022 年 9 月 6 日 01:55:42 (UTC+00:00)”。

MST是UTC-7,所以时间吻合。事件发生在9月5日晚上7点前,也就是我当地时间。

以下是 Hetrix Tools 生成的 Darkstar ping 中断图表截图,时间为美国山区时间 9 月 6 日上午 10:53。除了 DNS 中断导致的红色停机时间外,图中还显示了两次短暂的黄色维护中断。这些维护中断是由于 Darkstar 运行的是滚动更新的 Slackware64-current 版本,因此需要重启内核。

Hetrix 工具图表

对网站和服务器的影响

DNS 服务中断期间,任何人都无法通过浏览器访问 metalvps.com 网站。这是因为 DNS 服务器无法响应将域名解析为所需数字 IP 地址的请求。同样的原因,如果不使用数字 IP 地址而只能通过SSH连接到 MetalVPS 服务器,无法使用域名。任何没有数字 IP 地址的用户都无法连接到该网站,也无法连接到服务器。

对电子邮件的影响

事件发生时,已经过了太平洋时间下午 5 点下班时间,Porkbun 的支持团队无法休息了。

我等了大约两个半小时,看看问题是否会自行解决。但问题依然存在,于是我准备了一封邮件给Porkbun的客服团队。

邮件报告 DNS 故障

我很惊讶竟然无法发送邮件。我身在墨西哥,通过Migadu 的网页邮箱界面撰写了这封邮件,但却无法发送出去。相反,我收到了 SocketReadException 错误 523。错误 523表示“源地址不可达”,所以看来 Migadu 网页邮箱正在检查我的MX 记录,但由于 DNS 服务中断,无法验证。

DNS 服务中断期间无法接收邮件似乎是显而易见的。这是因为发送邮件的邮件传输代理 (MTA)将无法访问包含接收 MTA IP 地址的MX 记录。但令我惊讶的是,我甚至无法上传邮件进行发送,也无法将邮件加入发送队列。当然,如果我使用独立于我所有域名的邮件服务发送邮件,邮件可能就能正常发送。

结束时间通知

尝试发送邮件失败后,我决定睡觉。第二天早上醒来,我发现Hetrix的通知说服务已恢复。

2022 年 9 月 6 日凌晨 4:24(美国山区时间),Hetrix 发邮件称 MetalVPS.com 网站监控程序已于 2022 年 9 月 6 日 11:24:52 (UTC+00:00) 检测到该网站已恢复运行。邮件中报告的停机时间为“8 小时 59 分钟”。

一分钟后,美国山区时间凌晨 4:25,Hetrix 发邮件称 Darkstar 的 ping 监控器已恢复运行。通知时间为“2022 年 9 月 6 日 11:25:47 (UTC+00:00)”,停机时间为“9 小时 30 分钟”。

停机时间的差异似乎是由于四舍五入造成的。

与猪包子对话

得知服务中断已恢复,我欣喜不已,立即写信给Porkbun询问情况。Porkbun回复了我,带来了他们为阻止DDoS攻击所做的努力的好消息:

我们的域名服务器遭受了DDoS攻击,部分客户受到影响,其中当然也包括您的域名。遗憾的是,我们的系统未能及时扩展以抵御此次攻击。[...]

为了解释您遇到的情况,我们一直在将域名服务器基础设施迁移到 Cloudflare,专门用于解决此类问题。[...] 因此,您名下任何尚未自动迁移的域名都会受到影响。我们预计将在未来几周内完成所有域名的迁移,并强调目前无需进行任何手动更改,迁移本身也不会造成任何不良影响。迁移完成后,此类攻击导致的停机将成为历史。

哪些方面做得好?

幸运的是,我之前设置了 Hetrix 的 IP 地址和主机名双重监控。这纯属偶然,并非事先计划。更具体地说,我之前在 IPv4 上设置了 Darkstar 的主机名监控,在 IPv6 上设置了 IP 地址监控。IPv6 保持正常运行这一事实帮助我确定宕机是由于 DNS 解析问题,而不是 Darkstar 本身的问题。当然,也可能是 IPv4 网络宕机而 IPv6 保持正常运行。所以,问题不一定出在 DNS 解析上。

当然,和Porkbun合作总是令人愉快!每个人都会遇到问题,但和Porkbun一起解决问题比和任何我认识的人都好。每次我寻求帮助时,Porkbun总是非常友善地对待我。他们致力于提升DDoS攻击防御能力,也因此赢得了我们额外的耐心和理解。

哪些方面需要改进?

我改变了

从私有网络转为公共网络。我想为 MetalVPS.com 添加 IPv4 和 IPv6 ping 监控报告。

特价

请记住:即使服务中断,Porkbun 的服务依然一如既往地出色!每个人都会偶尔遇到服务中断的情况,但很少有公司能像 Porkbun 一样,为每位顾客提供如此友好、贴心的支持。

如果您想体验优质的服务和一流的支持——在我看来,这是任何地方都能找到的最好的——请访问Porkbun并使用优惠码 LOWENDBOX22,即可享受新用户注册立减 1 美元的优惠,新老用户均可使用!

— @Not_Oles