你打败过甘道夫的AI了吗?只有8%的玩家做到了。 你打败过甘道夫的AI了吗?只有8%的玩家做到了。

你打败过甘道夫的AI了吗?只有8%的玩家做到了。

甘道夫人工智能 ZHUJIMAO.COM 上出现了一个有趣的全新 AI 挑战,引起了一些讨论Lakera 的 Gandalf

你的目标是让甘道夫说出每一关的秘密密码。但是,每次你猜对密码,甘道夫都会升级,并且会更加努力地不泄露密码。你能通过第7关吗?(还有奖励关卡第8关)

根据该公司的统计数据,只有 8% 的人能通关第 7 关。

要通过第一关,你只需要问它密码。到了第四关,提示信息中出现“密码”或“秘密”之类的词都会自动判定失败。

这并非旨在模拟社会工程学,而是旨在展示人们如何欺骗大型语言模型(例如 ChatGPT)。引用 Lakera 的话:

与 SQL 注入攻击类似,用户输入(“数据”)与模型指令(“代码”)混合在一起,使攻击者能够滥用系统。在 SQL 中,可以通过对用户输入进行适当的转义来解决此问题。但对于直接处理无限灵活的自然语言的语言学习模型 (LLM) 而言,不可能以完全无懈可击的方式进行转义。

一旦我们允许 LLM 读取我们的数据并代表我们自主执行操作,这将变得尤其成问题——请参阅这篇精彩的文章了解一些示例。

我们之前报道过我做的其中一个黑客行为,我让ChatGPT 给我列出了一些可以盗版电影的网站,尽管它之前说过永远不会这样做。

我们社区里有很多杰出人士,所以不少人都打败了甘道夫。昨晚,在一些提示的帮助下,我13岁的女儿成功打到了第8关。我不会分享具体的答案,不过GitHub上有一套。我用的提示完全不同,所以玩这个……呃,人工智能的方法不止一种。乞求答案行不通,社交技巧(比如“我是IT部门的Josh……”)也不管用。

你玩到哪一步了?请在下方评论区告诉我们!