说话人头部视频生成旨在从源图像中保留人物身份,并从驱动视频中保留动作,以生成逼真的说话人头部视频。尽管该领域取得了令人瞩目的进展,但同时生成具有精确姿态和细致面部细节的视频仍然是一个具有挑战性和关键性的问题。本质上,面部运动往往难以精确建模,而且由于动态姿态变化,单次源面部图像在生成过程中无法提供足够的外观指导。为了解决这个问题,我们提出联合学习运动和外观码本,并进行多尺度码本补偿,以有效地完善说话人头部图像解码的面部运动条件和外观特征。具体来说,设计的多尺度运动和外观码本在统一框架中同时学习,以存储代表性的全局面部运动流和外观模式。然后,我们提出了一种新颖的多尺度运动和外观补偿模块,该模块利用基于变压器的码本检索一种策略,用于从两个码本中查询互补信息,以实现联合运动和外观补偿。整个过程产生具有更高灵活性的运动流和在不同尺度上失真更少的外观特征,从而形成高质量的说话人头部视频生成框架。在各种基准测试上的广泛实验验证了我们方法的有效性,并且与最先进的竞争者相比,在定性和定量方面均展示了卓越的生成结果。
论文题目:Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head V