读论文和复现《Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance》

论文题目:Champ:具有 3D 参数制导的可控且一致的人体图像动画 
24年最新SOTA,本文读论文和进行复现,未训练

本研究视频生成引如了smpl 的三维信息,因此结构更加优秀

论文地址:2403.14781

项目地址:github'

论文

摘要 

本研究介绍了一种通过在潜在扩散框架内利用3D人体参数模型来增强形状对齐和运动指导的人类图像动画方法。该方法使用SMPL(Skinned Multi-Person Linear)模型作为3D人体参数模型,以建立身体形状和姿态的统一表示,从而准确捕捉源视频中复杂的人体几何和运动特征。通过结合SMPL序列生成的渲染深度图像、法线贴图和语义贴图,以及基于骨骼的运动指导,为潜在扩散模型提供了全面的3D形状和详细姿态属性。采用集成自注意力机制的多层运动融合模块,在空间域中融合形状和运动潜在表示。通过将3D人体参数模型作为运动指导,可以在参考图像和源视频运动之间执行参数化人体对齐。实验评估表明,该方法在生成高质量人类动画方面具有优越能力,能够准确捕捉姿态和形状变化,并且在提出的野外数据集上表现出更好的泛化能力。

介绍

近期,生成扩散模型,特别是潜在扩散模型,在图像动画领域取得了显著进展。这些技术通常依赖于参考图像和特定于人类的运动指导(如骨架、语义图和密集运动流)来生成可控的人类动画视频。本研究的目标是进一步优化形状对齐和姿态指导机制,通过引入3D参数化模型(如SMPL)来编码参考图像的3D几何形状,并从源视频中提取人体运动。与基于GAN的方法相比,扩散模型能够更有效地处理运动转移,尤其是在参考图像和源视频运动之间存在显著变化的场景中。

方法

给定一个输入的人体图像和一个描述运动序列的参考视频。我们通过 Parametric Shape Alignment 作为 3D 运动引导获得与参考图像对应的位姿序列。MLMF用于对多层 3D 相关的运动信息进行编码。Referencenet 和 Temporal-attention 确保身份一致性和时间一致性 

3.1 预备知识

  • 潜在扩散模型(Latent Diffusion Models):通过在潜在空间中引入去噪过程,提高了模型的计算效率,同时保持了生成高保真图像的能力。

Rombach 等人 [39] 提出的潜在扩散模型 (LDM) 通过将两个不同的随机过程(即扩散和去噪)合并到潜在空间中,在扩散模型领域提出了一种新的方法。

  • SMPL模型:一个流行的3D模型,用于真实感的人体建模和动画,能够捕捉个体间的身体形状变化和人体姿态。

smpl的相关知识还是有必要完善一下:

SMPL(Skinned Multi-Person Linear)模型是一种广泛使用的3D人体参数模型,它能够捕捉人体形状和姿势的细微变化。以

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

请站在我身后

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值