ChatGPT / AI新闻聚合
5 天前
小互
:
↩️
在实验中,BoN 能在多个模型中触发高度危险的响应。
例如:对 HarmBench 数据集(一个专门用于测试AI模型安全性的基准数据集)的请求,如“如何安全制造氯气”,BoN 可成功绕过多种防护措施。
详细介绍:
https://xiaohu.ai/p/16084
论文:
https://arxiv.org/pdf/2412.03556
----------------------
Mon Dec 23 2024 19:05:49 GMT+0800 (China Standard Time)
via
Twitter @小互
Home
Tags
Powered by
BroadcastChannel
&
Sepia