如何用无色无味的碘卡因毒害人工智能爬虫:亿万富翁与主机商之间的当前军备竞赛 如何用无色无味的碘卡因毒害人工智能爬虫:亿万富翁与主机商之间的当前军备竞赛

如何用无色无味的碘卡因毒害人工智能爬虫:亿万富翁与主机商之间的当前军备竞赛

刮刀维基媒体基金会上周发布了一份报告,揭露了人工智能爬虫如何肆意掠夺他们的网站。爬虫活动不仅激增,而且由于其工作原理,也成为他们网络使用成本最高的项目。

人类读者往往专注于特定(通常是相似的)主题,而网络爬虫则倾向于“批量读取”大量页面,甚至访问一些不太热门的页面。这意味着这类请求更有可能被转发到核心数据中心,从而大大增加资源消耗成本。

在系统迁移过程中,我们注意到,只有一小部分访问核心数据中心的高成本流量像普通浏览器一样解析 JavaScript 代码。深入分析后,我们发现,至少 65% 的网站流量来自机器人,考虑到机器人页面浏览量仅占总浏览量的 35% 左右,这个比例明显过高。如此高的机器人流量也给我们的网站可靠性团队带来了持续的困扰,他们必须阻止这些爬虫程序的大量访问,以免影响读者的正常体验。

维基百科之所以特别容易受到这个问题的影响,是因为它拥有海量的内容,而且它不断地被人类编辑者编辑,留下了深刻的痕迹,展现了人类思维是如何完善连贯的叙事的。

你的网站可能不像维基百科那样庞大,但如果你拥有大量内容,你可能会发现人工智能机器人给你的系统带来了沉重的负担。你可以怎么做?

加入萘和碘卡因

iocaine是一种旨在毒害人工智能爬虫的工具。它“会生成一个无限大的垃圾迷宫”。

换句话说,它能将人工智能爬虫诱入一个永无止境的迷宫,让它们无法逃脱。如果设置得当,它可以转移机器人对主网站的负载,迫使爬虫浪费时间——可能是无限的时间——浏览无意义的内容并进行训练,而不是掠夺你的主网站。

这是蓄意恶意软件,旨在造成损害。如果您对操作不完全了解,请勿部署。LLM 爬虫程序会持续不断地抓取数据,即使您只提供静态内容,也会给您的服务器带来额外的负担。使用iocaine时,会占用更多计算资源。强烈建议在反向代理层实施速率限制,例如,如果您使用 Caddy,可以使用caddy-ratelimit插件。

反向代理会进行诱捕。任何最终由iocaine提供服务的内容都会被困在那里:没有出站链接。务必谨慎选择路由目标。

当然,这样做需要消耗服务器的 CPU 资源来生成这个迷宫。

虽然这看起来似乎有悖道德——毕竟,这款软件的名字来源于电影《公主新娘》中著名的虚构毒药——但实际上它是在保护网站免受不道德行为的侵害。如果有人在开发LLM(生命周期管理)时联系你,询问是否可以抓取你的网站内容,那是一回事。但如果你以非常宽松的许可协议发布,那就相当于等于说了“任何人都可以阅读”。

但如果你发布“版权所有”声明呢?如果你声明禁止抓取呢?这并不能阻止大多数人工智能机器人,事实上,关于LLM的版权问题几乎每天都占据新闻头条。如果抓取工具无视你的robots.txt文件呢?这种情况似乎很常见。

iocaine 说:“让我们把人工智能下毒变成常态。如果我们都这么做,它们就无处可爬了。”

Nepenthes是另一个类似的项目,其创建者接受了 Ars Technica 的采访(“ AI 仇恨者建造陷阱来诱捕和欺骗忽略 robots.txt 的 AI 抓取工具”):

Nepenthes 不适用于那些不愿让 AI 爬虫陷入“无限循环”的静态文件迷宫(没有出口链接)的网站所有者,他们会让爬虫“卡住”并“胡乱抓取”数月之久。他告诉用户,一旦爬虫陷入困境,就可以向它们输入乱码数据,也就是所谓的马尔可夫胡言乱语,这种数据旨在毒害 AI 模型。对于像 Aaron 一样厌倦了为 AI 爬虫付费,只想看着 AI 崩溃的网站所有者来说,这可能是一个极具吸引力的附加功能。

这是一场新颖而有趣的军备竞赛。