豆包开源VideoWorld:突破传统的视频生成模型

2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。这一模型在技术上实现了重大突破,开创了无需依赖语言模型即可认知世界的先河,与Sora、DALL-E、Midjourney等主流多模态模型形成显著差异。

目前,多数模型在知识学习过程中严重依赖语言或标签数据,对于纯视觉信号学习涉足较少。语言存在局限性,无法完整涵盖真实世界的所有知识,像折纸、打领结这类复杂任务,很难通过语言精确表述。VideoWorld摒弃语言模型,实现了理解和推理任务的统一执行,解决了现有模型的痛点。

VideoWorld基于潜在动态模型,能高效压缩视频帧间变化信息,大幅提升知识学习的效率和效果。值得一提的是,该模型在没有强化学习搜索或奖励函数机制的支持下,达到专业5段9x9围棋水平,还能在多种环境中执行机器人任务。其论文链接、代码链接及项目主页均已公布,为相关领域研究和应用提供了新方向。

GitHub论文IT之家

📮投稿 ☘️频道 🌸聊天 🗞️𝕏

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top