LiveBench是一个针对 LLMs 设计的基准,以测试集污染和客观评估为考量。它具有以下特性:
LiveBench 的设计旨在通过每月发布新问题来限制潜在的污染,并且问题基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影简介。
每个问题都有可验证的、客观的真实答案,使得困难的问题可以准确和自动地评分,而无需使用LLM裁判。
LiveBench 目前包含 6 个类别中的 18 个多样化任务,将随着时间的推移发布新的、更困难的任务。
目前排在LiveBench排行榜前六的选手分别为:
o1-preview-2024-09-12
claude-3-5-sonnet-20240620
o1-mini-2024-09-12
gpt-4o-2024-08-06
gemini-1.5-pro-002
chatgpt-4o-latest-0903
via: https://livebench.ai/
📣 AI新闻频道