🧩AI解谜能力大考：常识推理仍是挑战一项新研究利用《周日谜语》创建AI基准，测试AI的常识推理能力

🧩AI解谜能力大考：常识推理仍是挑战

一项新研究利用《周日谜语》创建AI基准，测试AI的常识推理能力。研究发现，即使是OpenAI的o1和DeepSeek的R1等推理模型，有时也会“放弃”并给出错误答案。在约600个谜语的测试中，o1的得分率为59%，o3-mini（推理强度较高）为47%，R1为35%。研究人员希望通过更广泛的基准测试，帮助改进AI模型的推理能力。

(IT业界资讯)

via 茶馆 - Telegram Channel