苹果研究员质疑大语言模型(LLM)的推理能力,认为其仅是复杂的模式匹配
苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型(LLM)的推理能力提出质疑,认为LLM所谓的“推理”能力实际上只是复杂的模式匹配,并非真正的逻辑推理。研究团队开发了GSM-Symbolic工具,基于GSM8K测试集生成符号模板,发现目前的LLM如Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型对专有名词和数字的更改非常敏感,显示出对数学概念理解的不足。实验结果显示,即使在参数和数据量增加的情况下,LLM的推理能力并没有实质性提升,只是成为了“更好的模式匹配器”。
arxiv
☘️ 关注频道 @ZaiHuapd
📮 热点投稿 @ZaiHuabot
via 科技圈🎗在花频道📮 - Telegram Channel
苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型(LLM)的推理能力提出质疑,认为LLM所谓的“推理”能力实际上只是复杂的模式匹配,并非真正的逻辑推理。研究团队开发了GSM-Symbolic工具,基于GSM8K测试集生成符号模板,发现目前的LLM如Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型对专有名词和数字的更改非常敏感,显示出对数学概念理解的不足。实验结果显示,即使在参数和数据量增加的情况下,LLM的推理能力并没有实质性提升,只是成为了“更好的模式匹配器”。
arxiv
☘️ 关注频道 @ZaiHuapd
📮 热点投稿 @ZaiHuabot
via 科技圈🎗在花频道📮 - Telegram Channel