小互: 兄弟们这个厉害 🙃

INFP:基于音频驱动的双人对话中的互动头像生成

接收双轨音频输入

能根据音频内容自动区分谁在说话,谁在听

同时根据每一方的语音特点独立生成对应的动画,包括嘴唇同步、面部表情和头部动作

在高性能硬件上支持超过 40 FPS 的生成速度,几乎是实时的。

还可以调整模型的“情绪参数”,比如让头像看起来更开心、严肃或者放松。

----------------------
Sun Dec 22 2024 11:25:08 GMT+0800 (China Standard Time)

via Twitter @小互
 
 
Back to Top