人物造型动画生成最新SOTA!阶跃星辰等提出MikuDance:混合运动建模和混合控制扩散

文章链接:https://arxiv.org/pdf/2411.08656
项目链接:https://kebii.github.io/MikuDance/

亮点直击

  • 提出混合运动建模(Mixed Motion Modeling),用于在统一的逐像素空间中显式建模角色和相机运动,从而有效地表示高动态运动。

  • 利用混合控制扩散(Mixed-Control Diffusion)隐式对齐角色的形状、姿势和比例与运动引导,从而实现角色艺术动画的连贯运动控制。

  • 大量实验表明,MikuDance 的有效性和泛化能力,相较于最新的方法,能够实现更高质量的动画和高动态运动控制

总结速览

要解决的问题

MikuDance 针对角色艺术动画中的两个主要难题:高动态运动参考引导错位问题

提出的方案

  1. 混合运动建模(Mixed Motion Modeling):通过场景运动跟踪策略(Scene Motion Tracking)对动态相机进行逐像素建模,实现角色与场景的统一运动建模。

  2. 混合控制扩散(Mixed-Control Diffusion):隐式地对多样角色的比例和体型进行运动引导对齐,从而灵活控制角色的局部运动。

应用的技术

  1. 场景运动跟踪策略(Scene Motion Tracking):显式建模动态相机,进行像素级空间的角色-场景运动建模。

  2. 运动自适应归一化模块(Motion-Adaptive Normalization Module):将全局场景运动注入角色动画中,支持全面的角色艺术动画生成。

达到的效果

通过大量实验,MikuDance 展现了其在各种角色艺术和运动引导场景中的有效性和泛化能力,生成的动画具有显著的运动动态效果和高质量的动画表现。

方法

入下图 2 所示,给定一个角色图像 和驱动视频 ,MikuDance 的目标是参考视频 中的人物和相机运动来动画化图像 。利用 Xpose 分别提取人体、面部和手部的姿势序列,并使用 DROID-SLAM 从 中提取相机姿势 ,其中 表示序列长度。角色的初始体态(与驱动视频相比在比例和姿势上存在显著差异)也从 中提取出来。接下来,通过 VAE 编码器将图像 和所有参考及驱动姿势图像编码到潜在空间中。相机姿势 经场景运动跟踪策略处理,以获得逐像素的场景运动引导。然后,利用混合控制扩散(Mixed-Control Diffusion)在潜在空间中将角色姿势和场景运动的混合运动引导作用于图像 ,以生成动画。最后,通过 VAE 时间解码器对潜在输出进行解码,以生成角色艺术动画。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值