苹果研究员质疑大语言模型（LLM）的推理能力，认为其仅是复杂的模式匹配苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型（LLM）的推理能力提出质疑，认为LLM所谓的“推理”能力实际上只是复杂的模式匹配，并非真正的逻辑推理

苹果研究员质疑大语言模型（LLM）的推理能力，认为其仅是复杂的模式匹配

苹果研究员Mehrdad Farajtabar等人发表的论文对大型语言模型（LLM）的推理能力提出质疑，认为LLM所谓的“推理”能力实际上只是复杂的模式匹配，并非真正的逻辑推理。研究团队开发了GSM-Symbolic工具，基于GSM8K测试集生成符号模板，发现目前的LLM如Llama、Phi、Gemma、Mistral 等开源模型，以及 GPT-4o 和 o1 系列等闭源模型对专有名词和数字的更改非常敏感，显示出对数学概念理解的不足。实验结果显示，即使在参数和数据量增加的情况下，LLM的推理能力并没有实质性提升，只是成为了“更好的模式匹配器”。

arxiv

☘️ 关注频道 @ZaiHuapd
📮 热点投稿 @ZaiHuabot

via 科技圈🎗在花频道📮 - Telegram Channel