又一个AI模型评测榜 LiveBenchLiveBench是一个针对 LLMs 设计的基准，以测试集污染和客观评估为考量

又一个AI模型评测榜 LiveBench

LiveBench是一个针对 LLMs 设计的基准，以测试集污染和客观评估为考量。它具有以下特性：

LiveBench 的设计旨在通过每月发布新问题来限制潜在的污染，并且问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介。

每个问题都有可验证的、客观的真实答案，使得困难的问题可以准确和自动地评分，而无需使用LLM裁判。

LiveBench 目前包含 6 个类别中的 18 个多样化任务，将随着时间的推移发布新的、更困难的任务。

目前排在LiveBench排行榜前六的选手分别为：
o1-preview-2024-09-12
claude-3-5-sonnet-20240620
o1-mini-2024-09-12
gpt-4o-2024-08-06
gemini-1.5-pro-002
chatgpt-4o-latest-0903

via: https://livebench.ai/

📣 AI新闻频道