读论文和复现《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》

最新推荐文章于 2025-12-10 15:53:18 发布

原创

最新推荐文章于 2025-12-10 15:53:18 发布 · 1.6k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #算法 #stable diffusion

论文题目：Champ：具有 3D 参数制导的可控且一致的人体图像动画
24年最新SOTA，本文读论文和进行复现，未训练

本研究视频生成引如了smpl 的三维信息，因此结构更加优秀

论文地址：2403.14781

项目地址：github'

论文

摘要

本研究介绍了一种通过在潜在扩散框架内利用3D人体参数模型来增强形状对齐和运动指导的人类图像动画方法。该方法使用SMPL（Skinned Multi-Person Linear）模型作为3D人体参数模型，以建立身体形状和姿态的统一表示，从而准确捕捉源视频中复杂的人体几何和运动特征。通过结合SMPL序列生成的渲染深度图像、法线贴图和语义贴图，以及基于骨骼的运动指导，为潜在扩散模型提供了全面的3D形状和详细姿态属性。采用集成自注意力机制的多层运动融合模块，在空间域中融合形状和运动潜在表示。通过将3D人体参数模型作为运动指导，可以在参考图像和源视频运动之间执行参数化人体对齐。实验评估表明，该方法在生成高质量人类动画方面具有优越能力，能够准确捕捉姿态和形状变化，并且在提出的野外数据集上表现出更好的泛化能力。

介绍

近期，生成扩散模型，特别是潜在扩散模型，在图像动画领域取得了显著进展。这些技术通常依赖于参考图像和特定于人类的运动指导（如骨架、语义图和密集运动流）来生成可控的人类动画视频。本研究的目标是进一步优化形状对齐和姿态指导机制，通过引入3D参数化模型（如SMPL）来编码参考图像的3D几何形状，并从源视频中提取人体运动。与基于GAN的方法相比，扩散模型能够更有效地处理运动转移，尤其是在参考图像和源视频运动之间存在显著变化的场景中。

方法

给定一个输入的人体图像和一个描述运动序列的参考视频。我们通过 Parametric Shape Alignment 作为 3D 运动引导获得与参考图像对应的位姿序列。MLMF用于对多层 3D 相关的运动信息进行编码。Referencenet 和 Temporal-attention 确保身份一致性和时间一致性