小互: DeepSeek-R1 幻觉问题严重：比 DeepSeek-V3 更容易产生幻觉Vectara 的机器学习团队对DeepSeek-R1和DeepSeek-V3模型进行了幻觉测试，发现：- DeepSeek-R1 的幻觉率为 14.3%，远高于其前身 DeepSeek-V3（3.9%）

小互: DeepSeek-R1 幻觉问题严重：比 DeepSeek-V3 更容易产生幻觉

Vectara 的机器学习团队对DeepSeek-R1和DeepSeek-V3模型进行了幻觉测试，发现：

- DeepSeek-R1 的幻觉率为 14.3%，远高于其前身 DeepSeek-V3（3.9%）。

这表明，在推理增强的过程中，DeepSeek-R1产生了更多幻觉，即生成了更多不准确或与原始信息不一致的内容。

- 经过与GPT系列模型对比推测：推理增强模型可能会增加幻觉率。

这一现象不仅出现在 DeepSeek 系列中，GPT-o1（推理增强的GPT）与GPT-4o（普通GPT）之间的比较也显示出类似的趋势。

- 推理增强的权衡：尽管推理增强模型可能会牺牲一些准确性，但 GPT系列在推理和幻觉之间的平衡较好，DeepSeek系列可能需要更多优化训练，以减少幻觉问题。

----------------------
Wed Feb 05 2025 11:50:33 GMT+0800 (China Standard Time)

via Twitter @小互