研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准这就是为什么一些专家认为它们是测试人工智能解决问题能力极限的一种有前途的方法 | ChatGPT / AI新闻聚合

研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准这就是为什么一些专家认为它们是测试人工智能解决问题能力极限的一种有前途的方法。在一项新...

via cnBeta.COM中文业界资讯站 - Telegram Channel

研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准这就是为什么一些专家认为它们是测试人工智能解决问题能…

研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准这就是为什么一些专家认为它们是测试人工智能解决问题能力极限的一种有前途的方法。在一项新研究中，来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学和初创公司 Cursor 的研究团队利用《周日谜语》中的谜语创建了一个人工智能基准。研究团队表示，他们的测试发现了一些令人惊讶的现象，比如所谓的推理模型--OpenAI 的 o1 等--有时会"放弃"，并提供明知不正确的答案。东北大学计算机科学本科生、本研究的共同作者之一阿尔琼-古哈（Arjun…

Powered by BroadcastChannel & Sepia