[读论文] Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Abstract

角色图像动画是一种根据参考图像和目标姿势序列生成高质量视频的技术,近年来取得了显著的进展。然而,大多数现有方法仅适用于人类形象,对游戏和娱乐等行业中常见的拟人化角色的泛化能力通常较差。我们的深入分析表明,这一局限性主要归因于其对动作建模的不足,这无法有效理解驱动视频的运动模式,而是将姿势序列僵硬地强加到目标角色上。为此,本文提出了一种基于 LDM 的通用动画框架 Animate-X,适用于各种角色类型(统称为X),包括拟人化角色。

为了增强动作表示,我们引入了姿势指示器(Pose Indicator),它通过隐式和显式两种方式,从驱动视频中捕捉全面的运动模式。隐式方式利用 CLIP 视觉特征提取驱动视频的运动精髓,如整体运动模式和动作之间的时间关系;显式方式通过预先模拟推理过程中可能出现的输入,加强了 LDM 的泛化能力。此外,我们还引入了一个新的动画拟人基准(A2Bench),用于评估 Animate-X 在通用且广泛适用的动画图像上的表现。

1. Introduction

paper: 2410.10306

2. Related work

2.1 Diffusion Models for Image / Video Generation

2.2 Pose-guided Character Motion Transfer

3. Method

3.1 Preliminaries of Latent Diffusion Model

扩散模型通过学习一个概率过程来模拟数据生成过程,具体方式是通过噪声逐步生成数据。为了减轻传统基于像素的扩散模型在高维 RGB 空间中的计算负担,潜在扩散模型(Latent Diffusion Models, LDMs) 提出将过程转移到一个由预训练变分自编码器(VAE)生成的低维潜在空间中。VAE 将输入数据编码为一个压缩的潜在表示 z 0 z_0 z0​。随后,在多个步骤中逐步向该潜在表示中添加高斯噪声,从而在降低计算需求的同时保持模型的生成能力。这个过程可形式化为:

q ( z t ∣ z t − 1 ) = N ( z t ; 1 − β t z t − 1 , β t I ) q(z_t|z_{t-1})=\mathcal N(z_t;\sqrt{1-\beta_t}z_{t-1},\beta_t \bold I) q(ztzt1)=N(zt;1βt zt1,βtI)

其中 β t ∈ ( 0 , 1 ) \beta_t\in(0,1) βt(0,1) 表示噪声计划。随着 t t t 的增加,施加于原始 z 0 z_0 z0 的累积噪声逐渐增强,使得 z t z_t zt 逐步接近随机高斯噪声。与正向扩散过程相比,反向去噪过程 p θ p_\theta pθ 的目标是从噪声输入 z t z_t zt 中重建干净样本 z 0 z_0 z0 。我们将去噪步骤 p ( z t − 1 ∣ z t ) p(z_{t-1}|z_t) p(zt1zt) 表示为:

p θ ( z t − 1 ∣ z t ) = N ( z t − 1 ; μ θ ( z t , t ) , Σ θ ( z t , t ) ) p_\theta(z_{t-1}|z_t)=\mathcal N(z_{t-1};\mu_\theta(z_t,t),\Sigma_\theta(z_t,t)) pθ(zt1zt)=N(zt1;μθ(zt,t),Σθ(zt,t))

其中 μ θ ( z t , t ) \mu_\theta(z_t,t) μθ(zt,t) 是反向扩散过程的目标估计值,该过程通常通过参数为 θ \theta θ 的扩散模型 ϵ θ \epsilon_\theta ϵθ 实现。为了建模时间维度,去噪模型 ϵ θ \epsilon_\theta ϵθ 通常在视频生成方法中基于 3D-UNet 架构构建。在给定条件引导 c c c 的情况下,优化过程中通常使用 L2 损失来减小预测噪声与真实噪声之间的差异:

L = E θ ∥ ϵ − ϵ θ ( z t , t , c ) ∥ 2 L=\mathbb E_\theta\parallel\epsilon-\epsilon_\theta(z_t,t,c)\parallel^2 L=Eθϵϵθ(zt,t,c)2

一旦反向去噪阶段完成,预测的干净潜在表示会通过 VAE 解码器传递,以在像素空间中重建预测的视频。

3.2 Pose Indicator

为了提取运动表示,现有工作通常通过 DW Pose 从驱动视频 I 1 : F d I^d_{1:F} I1:Fd 中检测关键点姿势,并进一步将其可视化为姿势图像 I p I_p Ip,然后使用自驱动重建策略进行训练。然而,这种方法存在以下几个局限性:

  1. 仅靠骨架姿势缺乏图像级细节,无法捕捉参考视频的本质特征,例如运动引起的变形和整体运动模式。

  2. 自驱动重建训练策略会自然对齐参考图像和姿势图像的身体形状,这在推理阶段忽略了参考图像与姿势图像之间可能存在的身体形状差异,从而简化了动画任务。

上述局限性削弱了模型对运动进行深度和整体理解的能力,导致运动表示不足。为了解决这些问题,我们提出了姿势指示器,包括隐式姿势指示器显式姿势指示器

Implicit Pose Indicator. 为了应对第一个局限性,从驱动视频中提取统一的运动表示,我们采用 CLIP 图像编码器提取的 CLIP 图像特征 f φ d = Φ ( I 1 : F d ) f^d_\varphi=\Phi(I^d_{1:F}) fφd=Φ(I1:Fd)。CLIP 利用对比学习对相关图像和文本的嵌入进行对齐,包含外观、运动、空间关系等描述。因此,CLIP 图像特征是一种高度融合的表示,包含对动画生成有帮助的运动模式和关系。我们引入了一个轻量级提取器 P P P,由 N 层交叉注意力和前馈网络堆叠而成。在交叉注意力层中,使用 f φ d f^d_\varphi fφd

作为 Key 和 Value。设计一个合适的查询成为关键,该查询应作为运动提取的指导。考虑到通过 DWPose 提取的关键点 p d p_d pd 对运动进行了直接描述,我们设计了一个基于Transformer 的编码器来获取嵌入 q p q_p qp,作为 Q Q Q 的理想候选。然而,仅使用稀疏关键点进行运动建模过于简单,导致潜在运动模式的丢失。

为此,我们借鉴了查询 Transformer 架构的思路,初始化了一个可学习的查询向量 q l q_l ql 来补充稀疏关键点。随后,将合并后的查询 q m = q p + q l q_m=q_p+q_l qm=qp+ql f φ d f^d_\varphi fφd 输入到 P P P 中,得到隐式姿势指示器 f i f_i fi,其包含简单 2D 姿势骨架无法表示的运动的本质特征。

Explicit Pose Indicator. 针对训练策略中的第二个局限性,我们提出了 EPI,用于训练模型在推理阶段处理未对齐的输入对。其关键在于在训练过程中模拟参考图像和姿势图像之间的未对齐,同时确保运动与给定驱动视频 I 1 : F d I^d_{1:F} I1:Fd 保持一致。因此,我们探索了两种姿势变换方案:姿势重对齐姿势重缩放。在姿势重新对齐方案中,我们首先建立一个包含训练集中姿势图像的姿势池。在每次训练中,先按照以往方法采样参考图像 I r I_r Ir 和驱动姿势 I p I_p Ip。此外,随机从姿势池中选择一个对齐锚点姿势 I a n c h o r p I^p_{anchor} Ianchorp 。此锚点用于对齐驱动姿势,生成对齐姿势 I r e a l i g n p I^p_{realign} Irealignp。然而,由于我们目标的动画角色通常是拟人化角色,其形状可能显著不同于人类,仅依赖姿势重新对齐不足以捕捉这些变化。因此,我们进一步引入姿势重缩放。具体来说,我们定义了一组关键点重缩放操作,包括调整身体、腿、手臂、颈部和肩膀的长度,改变脸部大小,甚至添加或移除特定身体部位等。这些变换存储在一个重缩放池中。在获得重新对齐的姿势 I r e a l i g n p I_{realign}^p Irealignp 后,我们以一定概率从池中随机选择变换并应用于它们,生成最终的变换姿势 I n p I^p_n Inp 。需要注意的是,我们设置了一个概率 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1] 来决定是否应用姿势变换。随后,将 I n p I^p_n Inp 编码为显式特征 f e f_e fe,通过一个姿势编码器完成。

3.3 Framework and Implement Details

Animate-X 遵循主流框架,该框架包括用于特征提取的多个编码器以及用于视频生成的 3D-UNet 。给定参考图像 I r I_r Ir,使用预训练的 CLIP 图像编码器 Φ \Phi Φ 从中提取外观特征 f φ r f_\varphi^r fφr。为了减少框架参数并促进外观对齐,我们省略了大多数现有工作中提出的 Reference Net。相反,使用 VAE 编码器 E E E I r I_r Ir 提取潜在表示 f e r f^r_e fer,并直接将其作为去噪网络 ϵ θ \epsilon_\theta ϵθ 的一部分输入。对于驱动视频 I 1 : F d I^d_{1:F} I1:Fd,通过DWPose 和 CLIP 图像编码器检测其关键点姿势 p d p_d pd 和 CLIP 特征 I d I_d Id。随后,IPI 和 EPI 分别提取隐式潜在特征 f i f_i fi 和显式潜在特征 f e f_e fe。显式特征 f e f_e fe 首先与噪声潜在特征 ϵ \epsilon ϵ 在通道维度上连接,然后与 f e r f^r_e fer 在时间维度上堆叠,生成组合特征 f m e r g e f_{merge} fmerge。接着,将组合特征输入视频扩散模型 ϵ θ \epsilon_\theta ϵθ ,用于联合完成外观对齐和运动建模。扩散模型包括多层堆叠的空间注意力运动注意力时间注意力模块。空间注意力模块接收来自 f m e r g e f_{merge} fmerge f i r f^r_i fir 的输入,通过交叉注意力将参考图像 I r I_r Ir 的身份条件与驱动视频 I d I_d Id 的运动条件融合,生成中间表示 x x x 。为了进一步增强运动一致性,将隐式特征 f i f_i fi 通过残差连接的形式输入运动注意力模块,与 x x x 一起生成表示 x ′ = x + C A ( x , f i ) x^\prime=x+CA(x,f_i) x=x+CA(x,fi)

。受 Mamba 算法在长序列处理中的线性时间效率启发,我们将其用作时间注意力模块以保持时间一致性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SP FA

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值