SadTalker: 学习用于风格化音频驱动的单图像说话人脸动画的真实三维运动系数

楠哥聊AI

于 2025-01-31 17:58:51 发布

阅读量163

点赞数 5

分类专栏：计算机视觉/图形学-数字人论文泛读文章标签：计算机视觉科研数字人 talking head sadtalker

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/A_D_I_D_A_S/article/details/145406735

版权

计算机视觉/图形学-数字人论文泛读专栏收录该内容

60 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

通过面部图像和一段语音音频生成说话头部视频仍存在许多挑战，例如不自然的头部运动、扭曲的表情以及身份改变。我们认为这些问题主要是由于从耦合的二维运动场中学习所致。另一方面，显式使用三维信息也会遭受表情僵硬和视频不连贯的问题。我们提出了SadTalker，它能够根据音频生成三维形变模型（3DMM）的三维运动系数（头部姿势、表情），并隐式地调节一个新的三维感知面部渲染，用于说话头部生成。为了学习真实的运动系数，我们分别明确地对音频与不同类型的运动系数之间的连接进行建模。具体来说，我们提出ExpNet，通过蒸馏系数和三维渲染的面部来从音频中学习精确的面部表情。至于头部姿势，我们通过条件变分自编码器设计PoseVAE，以合成不同风格的头部运动。最后，生成的三维运动系数被映射到所提出面部渲染的无监督三维关键点空间；并合成最终视频。
在这里插入图片描述

论文题目：SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
论文链接：https://arxiv.org/abs/2211.12194
代码：https://gith

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

楠哥聊AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。