🧩AI解谜能力大考:常识推理仍是挑战

一项新研究利用《周日谜语》创建AI基准,测试AI的常识推理能力。研究发现,即使是OpenAI的o1和DeepSeek的R1等推理模型,有时也会“放弃”并给出错误答案。在约600个谜语的测试中,o1的得分率为59%,o3-mini(推理强度较高)为47%,R1为35%。研究人员希望通过更广泛的基准测试,帮助改进AI模型的推理能力。

(IT业界资讯)

via 茶馆 - Telegram Channel
 
 
Back to Top