🔎AI 推出全新 BrowseComp 基准测试,挑战 AI 网络浏览能力

OpenAI 发布了名为 BrowseComp 的全新基准测试,旨在评估 AI 代理在互联网上查找难以获取信息的能力。该基准包含 1266 个具有挑战性的问题,现有模型如 GPT-4o 在未进行专门训练的情况下,准确率接近于零。实验表明,仅靠浏览能力不足以解决问题,模型还需要具备强大的推理能力和策略性。经过专门训练的 Deep Research 模型在该基准测试中表现出色,解决了约 51.5% 的问题。研究还发现,增加推理计算量和采用合适的答案聚合策略(如 Best-of-N)可以显著提高模型性能,最高可提升 15% 至 25%。BrowseComp 的推出旨在推动 AI 在网络浏览和信息检索方面的研究,并鼓励开发更可靠的 AI 代理。

(@OpenAI)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
admin@oaibest.com