🔎AI 推出全新 BrowseComp 基准测试，挑战 AI 网络浏览能力OpenAI 发布了名为 BrowseComp 的全新基准测试，旨在评估 AI 代理在互联网上查找难以获取信息的能力

🔎AI 推出全新 BrowseComp 基准测试，挑战 AI 网络浏览能力

OpenAI 发布了名为 BrowseComp 的全新基准测试，旨在评估 AI 代理在互联网上查找难以获取信息的能力。该基准包含 1266 个具有挑战性的问题，现有模型如 GPT-4o 在未进行专门训练的情况下，准确率接近于零。实验表明，仅靠浏览能力不足以解决问题，模型还需要具备强大的推理能力和策略性。经过专门训练的 Deep Research 模型在该基准测试中表现出色，解决了约 51.5% 的问题。研究还发现，增加推理计算量和采用合适的答案聚合策略（如 Best-of-N）可以显著提高模型性能，最高可提升 15% 至 25%。BrowseComp 的推出旨在推动 AI 在网络浏览和信息检索方面的研究，并鼓励开发更可靠的 AI 代理。

(@OpenAI)

via 茶馆 - Telegram Channel