VividTalk：基于三维混合先验的单次音频驱动说话人头部生成

楠哥聊AI

于 2025-02-11 00:28:11 发布

阅读量192

点赞数 3

分类专栏：计算机视觉/图形学-数字人论文泛读文章标签：计算机视觉数字人科研 talking head vividtalk

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/A_D_I_D_A_S/article/details/145560934

版权

计算机视觉/图形学-数字人论文泛读专栏收录该内容

60 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

近年来，音频驱动的说话人头部生成引起了广泛关注，并且在口型同步、丰富的面部表情、自然的头部姿势生成以及高视频质量方面进行了大量努力。然而，由于音频与动作之间的一对多映射关系，还没有模型在所有这些指标上领先或并列。在本文中，我们提出VividTalk，一个两阶段的通用框架，支持生成具有上述所有属性的高视觉质量说话人头部视频。具体来说，在第一阶段，我们通过学习两种动作——非刚性表情动作和刚性头部动作——将音频映射到网格上。对于表情动作，采用混合形状和顶点作为中间表示，以最大化模型的表达能力。对于自然的头部动作，提出了一种新颖的可学习头部姿势代码本，并采用两阶段训练机制。在第二阶段，我们提出了一个双分支运动变分自编码器和生成器，将网格转换为密集的动作，并逐帧合成高质量的视频。广泛的实验表明，所提出的VividTalk能够生成具有大幅度提升口型同步效果和真实感的说话人头部视频，并且在客观和主观比较中优于以往的最先进技术。

在这里插入图片描述

论文题目：VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior
论文链接：https://arxiv.org/abs/2312.018

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

楠哥聊AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。