通过面部图像和一段语音音频生成说话头部视频仍存在许多挑战,例如不自然的头部运动、扭曲的表情以及身份改变。我们认为这些问题主要是由于从耦合的二维运动场中学习所致。另一方面,显式使用三维信息也会遭受表情僵硬和视频不连贯的问题。我们提出了SadTalker,它能够根据音频生成三维形变模型(3DMM)的三维运动系数(头部姿势、表情),并隐式地调节一个新的三维感知面部渲染,用于说话头部生成。为了学习真实的运动系数,我们分别明确地对音频与不同类型的运动系数之间的连接进行建模。具体来说,我们提出ExpNet,通过蒸馏系数和三维渲染的面部来从音频中学习精确的面部表情。至于头部姿势,我们通过条件变分自编码器设计PoseVAE,以合成不同风格的头部运动。最后,生成的三维运动系数被映射到所提出面部渲染的无监督三维关键点空间;并合成最终视频。
论文题目:SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
论文链接:https://arxiv.org/abs/2211.12194
代码:https://gith