豆包开源VideoWorld：突破传统的视频生成模型2月10日，豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源

豆包开源VideoWorld：突破传统的视频生成模型

2月10日，豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”正式开源。这一模型在技术上实现了重大突破，开创了无需依赖语言模型即可认知世界的先河，与Sora、DALL-E、Midjourney等主流多模态模型形成显著差异。

目前，多数模型在知识学习过程中严重依赖语言或标签数据，对于纯视觉信号学习涉足较少。语言存在局限性，无法完整涵盖真实世界的所有知识，像折纸、打领结这类复杂任务，很难通过语言精确表述。VideoWorld摒弃语言模型，实现了理解和推理任务的统一执行，解决了现有模型的痛点。

VideoWorld基于潜在动态模型，能高效压缩视频帧间变化信息，大幅提升知识学习的效率和效果。值得一提的是，该模型在没有强化学习搜索或奖励函数机制的支持下，达到专业5段9x9围棋水平，还能在多种环境中执行机器人任务。其论文链接、代码链接及项目主页均已公布，为相关领域研究和应用提供了新方向。

GitHub ｜论文｜IT之家

📮投稿 ☘️频道 🌸聊天 🗞️𝕏

via 科技圈🎗在花频道📮 - Telegram Channel