LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
0. 前言
对比现有的驱动人脸变化,相当准确,并且当你识别脸部landmark准确时,动物也可以驱动。
1. 摘要
肖像动画旨在从单个源图像合成逼真的视频,将其用作外观参考,并具有源自驾驶视频、音频、文本或生成的运动(即面部表情和头部姿势)。本文没有遵循主流的基于diffusion的方法,而是探索和扩展了基于隐式关键点的框架的潜力,有效地平衡了计算效率和可控性。
本文通用性好、可控性好和实际使用的效率高(12.8ms)
2. 方法
2.1 简要回顾基于视频的肖像动画框架face-vid2vid,并介绍我们旨在增强动画的泛化能力和表现力的重大增强功能。
提出了精心设计的拼接和重定向模块,这些模块以可忽略的计算开销提供了所需的可控性。最后,我们详细介绍推理流程。
2.1 Face Vid2Vid
Face vid2vid,用于使用从驾驶视频序列中提取的运动特征来制作静态肖像动画。原始框架由外观特征提取器 FFF、规范隐式关键点检测器LLL、头部姿势估计网络HHH、表情变形估计网络 Δ\DeltaΔ、扭曲场估计器 WWW 和生成器 GGG 组成。FFF 将源图像 sss 映射到3D外观特征体积fsf_sfs。源 3D 关键点 xsx_sxs 和驱动 3D 关键点 xdx_dxd 变换如下
{
xs=xc,sRs+δs+tsxd=xc,sRd+δd+td\left\{\begin{matrix}x_s = x_{c,s}R_s + \delta _s+t_s \\x_d = x_{c,s}R_d + \delta _d+t_d \end{matrix}\right.