小互: ↩️ 在实验中，BoN 能在多个模型中触发高度危险的响应

小互: ↩️ 在实验中，BoN 能在多个模型中触发高度危险的响应。

例如：对 HarmBench 数据集（一个专门用于测试AI模型安全性的基准数据集）的请求，如“如何安全制造氯气”，BoN 可成功绕过多种防护措施。

详细介绍：https://xiaohu.ai/p/16084
论文：https://arxiv.org/pdf/2412.03556

----------------------
Mon Dec 23 2024 19:05:49 GMT+0800 (China Standard Time)

via Twitter @小互