ChatGPT / AI新闻聚合
6 天前
🧩
AI解谜能力大考:常识推理仍是挑战
一项新研究利用《周日谜语》创建AI基准,测试AI的常识推理能力。研究发现,即使是OpenAI的o1和DeepSeek的R1等推理模型,有时也会“放弃”并给出错误答案。在约600个谜语的测试中,o1的得分率为59%,o3-mini(推理强度较高)为47%,R1为35%。研究人员希望通过更广泛的基准测试,帮助改进AI模型的推理能力。
(IT业界资讯)
via
茶馆 - Telegram Channel
Home
Tags
Powered by
BroadcastChannel
&
Sepia