🔁🖼 20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现 1 分钟不到、20 步以内“越狱”任意大模型，绕过安全限制！而且不必知道模型内部细节：只需要两个...Forwarded From 🆕 科技新闻投稿📮TestFlight20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现1 分钟不到、20 步以内“越狱”任意大模型，绕过安全限制！而且不必知道模型内部细节：只需要两个黑盒模型互动，就能让AI全自动攻陷AI，说出危险内容

🔁🖼 20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现 1 分钟不到、20 步以内“越狱”任意大模型，绕过安全限制！而且不必知道模型内部细节：只需要两个...

Forwarded From 🆕 科技新闻投稿📮TestFlight
20 步内越狱任意大模型！更多“奶奶漏洞”全自动发现

1 分钟不到、20 步以内“越狱”任意大模型，绕过安全限制！而且不必知道模型内部细节：只需要两个黑盒模型互动，就能让AI全自动攻陷AI，说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了。那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”，AI又该如何应对？证据表明，一波猛攻下来，GPT-4也遭不住，直接说出要给供水系统投毒只要……这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞，而用上他们最新开发的算法，AI可以自动生成各种攻击提示。

研究人员表示，这种方法相比于现有的GCG等基于token的攻击方法，效率提高了5个量级。而且生成的攻击可解释性强，谁都能看懂，还能迁移到其它模型。无论是开源模型还是闭源模型，GPT-3.5、GPT-4、 Vicuna（Llama 2变种）、PaLM-2等，一个都跑不掉。成功率可达60-100%，拿下新SOTA。

来源：https://m.weibo.cn/status/Nr9jy5eU8?jumpfrom=weibocom

投稿：@ZaiHuaBot
频道：@TestFlightCN
双11必看省钱攻略

via MJJ出征 - Telegram Channel