我们发布 PaperBench,这是一个用于评估 AI 代理复现最先进 AI 研究能力的基准,同时也是我们防范框架的一部分。

AI 代理必须复现 ICML 2024 的顶级论文,任务涵盖理解论文、编写代码以及执行实验。

(@OpenAI)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
admin@oaibest.com