Moshi:实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达
Moshi 是一个多流(multi-stream)的实时语音到语音生成 Transformer 模型,支持全双工语音对话。它的主要特点是可以同时进行语音输入和输出(全双工),能够处理复杂的对话场景,包括重叠的语音、打断和情感表达等非语言信息。
这意味着它可以同时听和说,旨在解决传统对话系统中的一些问题,如延迟、非语言信息的丢失(例如情绪)以及对话轮次的僵化结构。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
加入会员
加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员
via XiaoHu.AI学院 (author: 小互)
Invalid media:
video
video
Moshi 是一个多流(multi-stream)的实时语音到语音生成 Transformer 模型,支持全双工语音对话。它的主要特点是可以同时进行语音输入和输出(全双工),能够处理复杂的对话场景,包括重叠的语音、打断和情感表达等非语言信息。
这意味着它可以同时听和说,旨在解决传统对话系统中的一些问题,如延迟、非语言信息的丢失(例如情绪)以及对话轮次的僵化结构。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
加入会员
加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员
via XiaoHu.AI学院 (author: 小互)
Invalid media:
video
video