MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model
代码链接:github
1. 摘要
MOFA-Video,一种先进的可控图像利用各种附加可控信号(如人类地标参考、手动轨迹,另一个甚至提供视频)或它们的组合。这不同于以往的方法只能在视频生成流水线中工作。对于MOFA-Adapters,在给定的稀疏控制条件下,首先对视频的时间运动一致性进行分析,生成密集的运动流,将给定图像的多尺度特征作为引导特征进行包裹,以稳定地生成视频扩散。我们为手动轨迹和人类地标分别训练两个运动适配器,因为它们都包含关于控制的稀疏信息。经过培训,不同领域的MOFA-Adapters也可以共同努力,实现更可控的视频生成。
在特定的运动域或表现出较弱的控制能力与扩散先验。为了实现我们的目标,我们设计了几个域感知运动场适配器(即MOFA-Adapters)来控制生成的运动
之前的方法例如(Sadtalker通过音频和给定的人脸产生准确的人脸动画)
这些方法通常遵循通过自我监督学习视频的规则分解,然后通过新的驱动信号制作动画。
然而,由于由于自然动画先验的限制,这些方法在一般图像中都不适用
与以前的域内图像动画不同,当前基于扩散的图像到视频(I2V)方法学习以端到端方式从图像生成视频。
利用域内图像动画和图像到视频的生成,我们很好奇:是否有一个通用的图像动画框架,支持对野生图像的细致控制能力?然后我们发现所有的动画都可以通过稀疏关键点(或关键帧)的运动传播来作为控制句

最低0.47元/天 解锁文章
742

被折叠的 条评论
为什么被折叠?



