MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Vi

原创

已于 2024-10-13 11:03:58 修改 · 913 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#AIGC #视觉检测 #人工智能 #论文阅读 #分类

于 2024-10-13 11:02:57 首次发布

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

代码链接：github

1. 摘要

MOFA-Video，一种先进的可控图像利用各种附加可控信号(如人类地标参考、手动轨迹，另一个甚至提供视频)或它们的组合。这不同于以往的方法只能在视频生成流水线中工作。对于MOFA-Adapters，在给定的稀疏控制条件下，首先对视频的时间运动一致性进行分析，生成密集的运动流，将给定图像的多尺度特征作为引导特征进行包裹，以稳定地生成视频扩散。我们为手动轨迹和人类地标分别训练两个运动适配器，因为它们都包含关于控制的稀疏信息。经过培训，不同领域的MOFA-Adapters也可以共同努力，实现更可控的视频生成。
在特定的运动域或表现出较弱的控制能力与扩散先验。为了实现我们的目标，我们设计了几个域感知运动场适配器(即MOFA-Adapters)来控制生成的运动

之前的方法例如（Sadtalker通过音频和给定的人脸产生准确的人脸动画）
这些方法通常遵循通过自我监督学习视频的规则分解，然后通过新的驱动信号制作动画。

然而，由于由于自然动画先验的限制，这些方法在一般图像中都不适用

与以前的域内图像动画不同，当前基于扩散的图像到视频(I2V)方法学习以端到端方式从图像生成视频。

利用域内图像动画和图像到视频的生成，我们很好奇:是否有一个通用的图像动画框架，支持对野生图像的细致控制能力?然后我们发现所有的动画都可以通过稀疏关键点(或关键帧)的运动传播来作为控制句

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。