论文题目:Champ:具有 3D 参数制导的可控且一致的人体图像动画
24年最新SOTA,本文读论文和进行复现,未训练
本研究视频生成引如了smpl 的三维信息,因此结构更加优秀
论文地址:2403.14781
项目地址:github'
论文
摘要
本研究介绍了一种通过在潜在扩散框架内利用3D人体参数模型来增强形状对齐和运动指导的人类图像动画方法。该方法使用SMPL(Skinned Multi-Person Linear)模型作为3D人体参数模型,以建立身体形状和姿态的统一表示,从而准确捕捉源视频中复杂的人体几何和运动特征。通过结合SMPL序列生成的渲染深度图像、法线贴图和语义贴图,以及基于骨骼的运动指导,为潜在扩散模型提供了全面的3D形状和详细姿态属性。采用集成自注意力机制的多层运动融合模块,在空间域中融合形状和运动潜在表示。通过将3D人体参数模型作为运动指导,可以在参考图像和源视频运动之间执行参数化人体对齐。实验评估表明,该方法在生成高质量人类动画方面具有优越能力,能够准确捕捉姿态和形状变化,并且在提出的野外数据集上表现出更好的泛化能力。
介绍
近期,生成扩散模型,特别是潜在扩散模型,在图像动画领域取得了显著进展。这些技术通常依赖于参考图像和特定于人类的运动指导(如骨架、语义图和密集运动流)来生成可控的人类动画视频。本研究的目标是进一步优化形状对齐和姿态指导机制,通过引入3D参数化模型(如SMPL)来编码参考图像的3D几何形状,并从源视频中提取人体运动。与基于GAN的方法相比,扩散模型能够更有效地处理运动转移,尤其是在参考图像和源视频运动之间存在显著变化的场景中。
方法
给定一个输入的人体图像和一个描述运动序列的参考视频。我们通过 Parametric Shape Alignment 作为 3D 运动引导获得与参考图像对应的位姿序列。MLMF用于对多层 3D 相关的运动信息进行编码。Referencenet 和 Temporal-attention 确保身份一致性和时间一致性
3.1 预备知识
- 潜在扩散模型(Latent Diffusion Models):通过在潜在空间中引入去噪过程,提高了模型的计算效率,同时保持了生成高保真图像的能力。
Rombach 等人 [39] 提出的潜在扩散模型 (LDM) 通过将两个不同的随机过程(即扩散和去噪)合并到潜在空间中,在扩散模型领域提出了一种新的方法。
- SMPL模型:一个流行的3D模型,用于真实感的人体建模和动画,能够捕捉个体间的身体形状变化和人体姿态。
smpl的相关知识还是有必要完善一下:
SMPL(Skinned Multi-Person Linear)模型是一种广泛使用的3D人体参数模型,它能够捕捉人体形状和姿势的细微变化。以