AIGC 015-AniTalker通过身份解耦生成面部动作
0 论文工作
Identity-Preserving最近是一个很热门的话题。
作者介绍了 AniTalker,一个旨在通过将身份和面部动作解耦来生成生动多样的人物说话面部视频的框架。现有的许多talking-face生成模型都**专注于精确的唇形同步,但往往忽略了面部表情的细微差别,从而导致生成结果缺乏活力和多样性。为了解决这个问题,AniTalker 提出了一个通用的运动表征,它将身份信息与面部动作信息解耦。这个表征通过自监督度量学习从大量视频数据中学习得到,并使用分层和分块的编码策略进一步增强。由此产生的解耦表征不仅能够准确地捕捉细微的面部运动,还能促进各种面部属性(例如头部姿势、眨眼和注视方向)的灵活操作。此外,论文引入了一个运动生成器,利用扩散模型,以获得具有高度保真度和自然度的逼真面部动画。**AniTalker 在语音驱动的说话人脸生成方面显著优于现有最先进的方法,能够生成具有身份一致性、丰富表情和自然过渡的生动视频。
paper
github
1 论文方法
AniTalker 的核心思想是将身份信息和面部动作解耦,从而实现更生动和多样化的说话人脸视频生成。
通用运动表征 (Universal Motion Representation): AniTalker 提出了一种从大量视频数据中学习的通用运动表征,该表征将身份信息与面部动作信息解耦。这是通过自监督度量学习实现的。这种解耦的表征使得模型能够在保持身份一致性的同时,更灵活地控制和生成多样化的面部动作。
分层和分块编码策略 (Hierarchical and Localized Encoding Strategy): 为了更有效地捕捉面部运动的细微差别,AniTalker 采用了分层和分块的编码策略。分层编码能够捕获不同尺度的运动信息,而分块编码则关注局部区域的运动细节。这种策略使得运动表征更加精细和准确。
基于扩散模型的运动生成器 (Motion Generator based on Diffusion Model): AniTalker 使用扩散模型来生成面部动画。扩散模型能够生成具有高度保真度和自然度的逼真结果,从而提升生成视频的质量。
灵活的面部属性控制 (Flexible Control of Facial Attributes): 由于身份和面部动作的解耦,AniTalker 可以灵活地控制各种面部属性,例如头部姿势、眨眼和注视方向。这使得生成的视频更加生动和多样化。
自监督学习 (Self-supervised Learning): AniTalker 的通用运动表征是通过自监督度量学习得到的,无需人工标注数据,这大大降低了数据获取和标注的成本。