VividTalk:基于三维混合先验的单次音频驱动说话人头部生成

近年来,音频驱动的说话人头部生成引起了广泛关注,并且在口型同步、丰富的面部表情、自然的头部姿势生成以及高视频质量方面进行了大量努力。然而,由于音频与动作之间的一对多映射关系,还没有模型在所有这些指标上领先或并列。在本文中,我们提出VividTalk,一个两阶段的通用框架,支持生成具有上述所有属性的高视觉质量说话人头部视频。具体来说,在第一阶段,我们通过学习两种动作——非刚性表情动作和刚性头部动作——将音频映射到网格上。对于表情动作,采用混合形状和顶点作为中间表示,以最大化模型的表达能力。对于自然的头部动作,提出了一种新颖的可学习头部姿势代码本,并采用两阶段训练机制。在第二阶段,我们提出了一个双分支运动变分自编码器和生成器,将网格转换为密集的动作,并逐帧合成高质量的视频。广泛的实验表明,所提出的VividTalk能够生成具有大幅度提升口型同步效果和真实感的说话人头部视频,并且在客观和主观比较中优于以往的最先进技术。

在这里插入图片描述

论文题目:VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior
论文链接:https://arxiv.org/abs/2312.018

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楠哥聊AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值