你打败过甘道夫的AI了吗？只有8%的玩家做到了。

甘道夫人工智能 ZHUJIMAO.COM 上出现了一个有趣的全新 AI 挑战，引起了一些讨论： Lakera 的 Gandalf 。

你的目标是让甘道夫说出每一关的秘密密码。但是，每次你猜对密码，甘道夫都会升级，并且会更加努力地不泄露密码。你能通过第7关吗？（还有奖励关卡第8关）

根据该公司的统计数据，只有 8% 的人能通关第 7 关。

要通过第一关，你只需要问它密码。到了第四关，提示信息中出现“密码”或“秘密”之类的词都会自动判定失败。

这并非旨在模拟社会工程学，而是旨在展示人们如何欺骗大型语言模型（例如 ChatGPT）。引用 Lakera 的话：

与 SQL 注入攻击类似，用户输入（“数据”）与模型指令（“代码”）混合在一起，使攻击者能够滥用系统。在 SQL 中，可以通过对用户输入进行适当的转义来解决此问题。但对于直接处理无限灵活的自然语言的语言学习模型 (LLM) 而言，不可能以完全无懈可击的方式进行转义。
一旦我们允许 LLM 读取我们的数据并代表我们自主执行操作，这将变得尤其成问题——请参阅这篇精彩的文章了解一些示例。

我们之前报道过我做的其中一个黑客行为，我让ChatGPT 给我列出了一些可以盗版电影的网站，尽管它之前说过永远不会这样做。

我们社区里有很多杰出人士，所以不少人都打败了甘道夫。昨晚，在一些提示的帮助下，我13岁的女儿成功打到了第8关。我不会分享具体的答案，不过GitHub上有一套。我用的提示完全不同，所以玩这个……呃，人工智能的方法不止一种。乞求答案行不通，社交技巧（比如“我是IT部门的Josh……”）也不管用。

你玩到哪一步了？请在下方评论区告诉我们！

搜尋

你打败过甘道夫的AI了吗？只有8%的玩家做到了。

下一篇

我们收到了第一份DMCA通知！来自罗斯·乌布利希法律辩护基金