Vectara 的机器学习团队对DeepSeek-R1和DeepSeek-V3模型进行了幻觉测试,发现:
- DeepSeek-R1 的幻觉率为 14.3%,远高于其前身 DeepSeek-V3(3.9%)。
这表明,在推理增强的过程中,DeepSeek-R1产生了更多幻觉,即生成了更多不准确或与原始信息不一致的内容。
- 经过与GPT系列模型对比推测:推理增强模型可能会增加幻觉率。
这一现象不仅出现在 DeepSeek 系列中,GPT-o1(推理增强的GPT)与GPT-4o(普通GPT)之间的比较也显示出类似的趋势。
- 推理增强的权衡:尽管推理增强模型可能会牺牲一些准确性,但 GPT系列 在推理和幻觉之间的平衡较好,DeepSeek系列可能需要更多优化训练,以减少幻觉问题。
----------------------
Wed Feb 05 2025 11:50:33 GMT+0800 (China Standard Time)
via Twitter @小互