SadTalker: 学习用于风格化音频驱动的单图像说话人脸动画的真实三维运动系数

通过面部图像和一段语音音频生成说话头部视频仍存在许多挑战,例如不自然的头部运动、扭曲的表情以及身份改变。我们认为这些问题主要是由于从耦合的二维运动场中学习所致。另一方面,显式使用三维信息也会遭受表情僵硬和视频不连贯的问题。我们提出了SadTalker,它能够根据音频生成三维形变模型(3DMM)的三维运动系数(头部姿势、表情),并隐式地调节一个新的三维感知面部渲染,用于说话头部生成。为了学习真实的运动系数,我们分别明确地对音频与不同类型的运动系数之间的连接进行建模。具体来说,我们提出ExpNet,通过蒸馏系数和三维渲染的面部来从音频中学习精确的面部表情。至于头部姿势,我们通过条件变分自编码器设计PoseVAE,以合成不同风格的头部运动。最后,生成的三维运动系数被映射到所提出面部渲染的无监督三维关键点空间;并合成最终视频。
在这里插入图片描述

论文题目:SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
论文链接:https://arxiv.org/abs/2211.12194
代码:https://gith

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楠哥聊AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值