小互: 兄弟们这个厉害 🙃INFP：基于音频驱动的双人对话中的互动头像生成接收双轨音频输入能根据音频内容自动区分谁在说话，谁在听同时根据每一方的语音特点独立生成对应的动画，包括嘴唇同步、面部表情和头部动作在高性能硬件上支持超过 40 FPS 的生成速度，几乎是实时的

小互: 兄弟们这个厉害 🙃

INFP：基于音频驱动的双人对话中的互动头像生成

接收双轨音频输入

能根据音频内容自动区分谁在说话，谁在听

同时根据每一方的语音特点独立生成对应的动画，包括嘴唇同步、面部表情和头部动作

在高性能硬件上支持超过 40 FPS 的生成速度，几乎是实时的。

还可以调整模型的“情绪参数”，比如让头像看起来更开心、严肃或者放松。

----------------------
Sun Dec 22 2024 11:25:08 GMT+0800 (China Standard Time)

via Twitter @小互