GPT-4o 能玩《黑神话:悟空》:精英怪胜率超人类,无强化学习纯大模型方案
阿里巴巴的研究人员们提出了一个新型 VARP(视觉动作角色扮演)智能体框架。它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成 Python 代码形式的动作,以此来操作游戏。
以玩《黑神话·悟空》为例,该智能体在 90% 简单和中等水平战斗场景中取胜。
同时 VARP 还包含 3 个库:情景库、动作库和人工引导库。这些库中存储了 agent 自我学习和人类指导的内容,可以进行检索和更新。
框架分别使用了 GPT-4o(2024-0513 版本)、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。
对比人类和 AI 的表现结果,可以看到小怪部分 AI 们的表现达到人类玩家水平。到了牯护院时,Claude 3.5 Sonnet 败下阵来,GPT-4o 胜率最高。但是对于新手玩家普遍头疼的幽魂,AI 们也都束手无策了。
量子位|Arxiv|GiHub
☘️ 关注频道 @ZaiHuapd
📮 热点投稿 @ZaiHuabot
via 科技圈🎗在花频道📮 - Telegram Channel
阿里巴巴的研究人员们提出了一个新型 VARP(视觉动作角色扮演)智能体框架。它能直接将游戏截图作为输入,通过视觉语言模型推理,最终生成 Python 代码形式的动作,以此来操作游戏。
以玩《黑神话·悟空》为例,该智能体在 90% 简单和中等水平战斗场景中取胜。
同时 VARP 还包含 3 个库:情景库、动作库和人工引导库。这些库中存储了 agent 自我学习和人类指导的内容,可以进行检索和更新。
框架分别使用了 GPT-4o(2024-0513 版本)、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。
对比人类和 AI 的表现结果,可以看到小怪部分 AI 们的表现达到人类玩家水平。到了牯护院时,Claude 3.5 Sonnet 败下阵来,GPT-4o 胜率最高。但是对于新手玩家普遍头疼的幽魂,AI 们也都束手无策了。
量子位|Arxiv|GiHub
☘️ 关注频道 @ZaiHuapd
📮 热点投稿 @ZaiHuabot
via 科技圈🎗在花频道📮 - Telegram Channel