Meta对其新AI模型的基准测试有点误导性

Meta 公司周六发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。但 Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。正如多位 AI 研究人员在 X 上指出的那样,Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。与此同时,Llama 官方网站上的一张图表显示,Meta 的 LM Arena 测试是使用“针对对话性优化的 Llama 4 Maverick”进行的。这种将模型针对某个基准进行优化,然后再发布模型的 “普通” 版本,使得开发者难以准确预测模型在特定场景中的实际表现。

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
admin@oaibest.com