小互: ↩️ 在实验中,BoN 能在多个模型中触发高度危险的响应。

例如:对 HarmBench 数据集(一个专门用于测试AI模型安全性的基准数据集)的请求,如“如何安全制造氯气”,BoN 可成功绕过多种防护措施。

详细介绍:https://xiaohu.ai/p/16084
论文:https://arxiv.org/pdf/2412.03556

----------------------
Mon Dec 23 2024 19:05:49 GMT+0800 (China Standard Time)

via Twitter @小互
 
 
Back to Top