近年来,音频驱动的说话人头部生成引起了广泛关注,并且在口型同步、丰富的面部表情、自然的头部姿势生成以及高视频质量方面进行了大量努力。然而,由于音频与动作之间的一对多映射关系,还没有模型在所有这些指标上领先或并列。在本文中,我们提出VividTalk,一个两阶段的通用框架,支持生成具有上述所有属性的高视觉质量说话人头部视频。具体来说,在第一阶段,我们通过学习两种动作——非刚性表情动作和刚性头部动作——将音频映射到网格上。对于表情动作,采用混合形状和顶点作为中间表示,以最大化模型的表达能力。对于自然的头部动作,提出了一种新颖的可学习头部姿势代码本,并采用两阶段训练机制。在第二阶段,我们提出了一个双分支运动变分自编码器和生成器,将网格转换为密集的动作,并逐帧合成高质量的视频。广泛的实验表明,所提出的VividTalk能够生成具有大幅度提升口型同步效果和真实感的说话人头部视频,并且在客观和主观比较中优于以往的最先进技术。
论文题目:VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior
论文链接:https://arxiv.org/abs/2312.018