小互: DeepSeek-R1 幻觉问题严重:比 DeepSeek-V3 更容易产生幻觉

Vectara 的机器学习团队对DeepSeek-R1和DeepSeek-V3模型进行了幻觉测试,发现:

- DeepSeek-R1 的幻觉率为 14.3%,远高于其前身 DeepSeek-V3(3.9%)。

这表明,在推理增强的过程中,DeepSeek-R1产生了更多幻觉,即生成了更多不准确或与原始信息不一致的内容。

- 经过与GPT系列模型对比推测:推理增强模型可能会增加幻觉率。

这一现象不仅出现在 DeepSeek 系列中,GPT-o1(推理增强的GPT)与GPT-4o(普通GPT)之间的比较也显示出类似的趋势。

- 推理增强的权衡:尽管推理增强模型可能会牺牲一些准确性,但 GPT系列 在推理和幻觉之间的平衡较好,DeepSeek系列可能需要更多优化训练,以减少幻觉问题。

----------------------
Wed Feb 05 2025 11:50:33 GMT+0800 (China Standard Time)

via Twitter @小互
 
 
Back to Top