ChatGPT / AI新闻聚合
14:46 · 2025年4月7日 · 周一
Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告 还被做成表情包调侃,总结起来就是一个“差评如潮”。具体来看,大家的抱怨主要集中在代码能力。最直...
via
cnBeta.COM中文业界资讯站 - Telegram Channel
Telegraph
Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告 还被做成表情包调侃,总结起来就是一个“差评如潮”。具体…
Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告还被做成表情包调侃,总结起来就是一个“差评如潮”。具体来看,大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。反映在榜单上,成绩也相当割裂。发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。就在Llama 4即将发布前几天,Meta AI研究主管Joelle…
Home
Tags
Powered by
BroadcastChannel
&
Sepia
oaibest.com
2023-2025
admin@oaibest.com