MotionEditor_ 通过内容感知扩散编辑视频运动

image.png
图1. MotionEditor:一种基于扩散的视频编辑方法,旨在将参考视频的运动转移到源视频中。

摘要

现有的基于扩散的视频编辑模型在随时间编辑源视频的属性方面取得了显著进展,但在修改运动信息的同时保持原始主角的外观和背景方面存在困难。为了解决这个问题,我们提出了MotionEditor,这是一种用于视频运动编辑的扩散模型。MotionEditor将一种新颖的内容感知运动适配器集成到ControlNet中,以捕捉时间上的运动对应关系。虽然ControlNet能够基于骨架姿势直接生成,但在修改源运动时,由于噪声(源)和条件(参考)之间的矛盾信号,它会遇到挑战。我们的适配器通过涉及源内容来补充ControlNet,无缝转移适配的控制信号。此外,我们构建了一个双分支架构(一个重建分支和一个编辑分支),并采用高保真度的注意力注入机制促进分支间的交互。这种机制使得编辑分支能够以解耦的方式从重建分支查询关键和值,从而使编辑分支保留原始背景和主角外观。我们还提出了一种骨架对齐算法,以解决姿势大小和位置的差异。实验表明,MotionEditor在定性和定量上都具有有希望的运动编辑能力。

引言

扩散模型在图像生成方面取得了显著成功,这激发了视频编辑领域的大量研究。尽管取得了重大进展,但现有的视频编辑扩散模型主要关注纹理编辑,例如主角属性的操纵、背景编辑和风格编辑。与图像相比,运动信息是最独特和最显著的特征,但大多被忽视。这引出了一个问题:我们能否根据参考视频操纵视频的运动?在本文中,我们尝试探索一种新颖、更高级且更具挑战性的视频编辑场景——运动编辑。给定一个参考视频和提示,我们的目标是改变源视频中主角的运动以匹配参考视频,同时保留原始外观。

在文献中,研究人员已经探索了人体运动转移和姿势引导的视频生成。前者侧重于基于参考骨架的静态图像动画,而后者尝试生成与姿势对齐的视频,而不保留期望的外观。运动编辑的不同之处在于,它直接修改视频中的运动,同时保留其他视频信息,如动态的逐帧背景和相机运动。

视觉编辑的最新进展主要通过使用扩散模型实现。例如,ControlNet使得基于姿势的直接可控生成成为可能。然而,当尝试根据另一个姿势编辑运动时,它们会遭受严重的伪影。我们假设原因是控制信号仅从参考姿势中派生,无法适当适应源内容,从而导致矛盾。一些方法还缺乏保留主角和背景外观以及时间一致性的能力。

在本文中,我们重新思考了ControlNet的基本有效性。我们认为,在生成编辑任务的控制信号时,涉及源潜在内容是至关重要的。借助源内容,条件指导可以精确感知整个上下文和结构,并调整其分布以防止不希望的扭曲。

为此,我们提出了MotionEditor,如图2所示,以在使用扩散模型探索视频运动编辑方面迈出一步。MotionEditor需要在源视频上进行一次学习以保留原始纹理特征。然后,我们引入了一个附加到ControlNet的内容感知运动适配器,以增强控制能力和时间建模。适配器由内容感知块和时间块组成。特别是,内容感知块执行交叉注意力以融合源帧特征,这显著提高了运动控制的质量。

在推理时,设计了一个骨架对齐算法来解决源骨架和参考骨架之间的大小和位置差异。我们进一步提出了基于双分支架构(重建和编辑分支)的注意力注入机制,以保留主角和背景的原始外观。以前的注意力融合策略直接将注意力图或键注入编辑分支。直接注入可能会导致编辑前景和背景之间的混淆。在某些情况下,它会给编辑分支带来噪声,从而导致重叠和阴影闪烁的现象。为了避免这种情况,我们提出使用分割掩码解耦前景和背景中的键/值。因此,编辑分支能够从源中捕获背景细节和主角的几何结构。总之,我们的贡献如下:(1)我们探索了通常被以前的视频编辑工作忽视的视频扩散模型用于运动编辑。(2)我们提出了一种新颖的内容感知运动适配器,使得ControlNet能够进行一致和精确的运动编辑。(3)我们提出了一种高保真度的注意力注入机制,该机制在推理期间保持活跃,无需训练即可保留源背景信息和主角的几何结构。(4)我们在野外视频上进行了实验,结果表明我们的方法与最先进的方法相比具有优越性。

相关工作

扩散模型用于图像编辑 图像生成随着扩散模型的出现而显著提高,超越了之前的GAN模型在质量和编辑能力方面。在[29]的开创性工作基础上,研究人员在这一方向上取得了进展。Meng等人提出了SDEdit,这是第一个通过反转和还原实现图像编辑的方法。这使得与之前的基于GAN的方法相比,编辑控制更加精确。Prompt-to-Prompt[9]和Plug-and-Play[37]引入了生成更连贯混合图像的技术,解决了不一致的噪声问题。同时,UniTune[38]和Imagic[15]专注于扩散模型的个性化微调。简而言之,这些方法使得编辑更接近原始图像。

为了生成多样化的内容,研究人员提出了几种可控的扩散模型[6, 13, 24, 30, 31, 42]。Zhang等人引入了ControlNet,它使得Stable Diffusion[29]能够接受多种可控条件进行文本到图像的合成。Cao等人提出了MasaCtrl,它将现有的自注意力转换为互自注意力,以实现非刚性图像合成。总的来说,这些方法通过处理不一致的噪声、微调策略和基于反转的编辑,推进了基于扩散的图像编辑。然而,仍然存在一个开放的挑战,即在保持完美保真度和一致性的同时,实现精确的语义编辑。

扩散模型用于视频编辑和生成
视频编辑很复杂,需要在编辑中保持时间一致性。大多数方法使用现有的文本到图像扩散模型,并添加了一个额外的时间建模模块。Tune-a-Video[41]和Text2Video-Zero[16]将2D扩散模型扩展到3D模型。FateZero[27]和Vid2Vid-zero[40]使用互注意力来确保几何和颜色信息的一致性。另一方面,Text2LIVE[1]和StableVideo[4]通过利用分层神经图谱[14]来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值