Genmo 推出目前全球最大的开源视频生成模型 Mochi 1

Genmo 推出最新开源视频生成模型 Mochi 1。

Mochi 1 采用了Asymmetric Diffusion Transformer(AsymmDiT)架构,是迄今为止最大的开源视频生成模型,具备10亿参数。
该模型可同时处理文本和视频信号,拥有更强的视觉推理能力,同时优化了内存需求。

功能特点:

1. 高保真动作生成

● 动作流畅、自然:生成的视频帧率达到30帧/秒,持续时间最长可达5.4秒,具备高时间一致性,确保动作连贯且自然。
● 逼真的物理效果:模型在生成流体动态、毛发模拟和人类行为时,遵循物理法则,生成结果更加自然逼真。
● 突破“恐怖谷”问题:人类角色的动作和表情流畅连贯,细节丰富,显著提升了视频的真实感和自然度。

2. 强大的文本提示响应

● 精确的提示对齐:Mochi 1 能根据用户的文本指令,生成与描述高度一致的场景、角色和动作。
● 多模态融合:模型在处理视觉和文本提示时使用多模态自注意力机制,实现文本和视频的协同处理,使得生成结果符合用户预期。

衡量生成的视频遵循所提供的文本指令的准确程度,确保高度保真用户意图

评估运动平滑度和空间真实感,确保生成的视频流畅且具有视觉吸引力。

3.实时生成与高效推理

● 实时视频生成:在推理阶段,Mochi 1 通过高效的内存管理和并行计算策略,实现了快速的视频生成和低延迟响应。
● 适用于多种应用场景:可用于视频创作、娱乐、虚拟环境训练、机器人合成数据等领域。

技术架构

Mochi 1 的模型架构是基于 Asymmetric Diffusion Transformer(AsymmDiT)

Support authors and subscribe to content


This is premium stuff. Subscribe to read the entire article.
Login if you have purchased

加入会员
加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

via XiaoHu.AI学院 (author: 小互)
 
 
Back to Top
oaibest.com 2023-2024   admin@g4f.icu | 服务状态