Meta对其新AI模型的基准测试有点误导性Meta 公司周六发布了一款名为 Maverick 的新旗舰 AI 模型，并在 LM Arena 测试中取得了第二名的成绩

Meta对其新AI模型的基准测试有点误导性

Meta 公司周六发布了一款名为 Maverick 的新旗舰 AI 模型，并在 LM Arena 测试中取得了第二名的成绩。但 Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。正如多位 AI 研究人员在 X 上指出的那样，Meta 在其公告中明确提到，参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。与此同时，Llama 官方网站上的一张图表显示，Meta 的 LM Arena 测试是使用“针对对话性优化的 Llama 4 Maverick”进行的。这种将模型针对某个基准进行优化，然后再发布模型的 “普通” 版本，使得开发者难以准确预测模型在特定场景中的实际表现。

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel