文章链接:https://arxiv.org/pdf/2412.19761
项目链接:https://genprop.github.io
亮点直击
定义了一个新的生成视频传播问题,目标是利用 I2V 模型的生成能力,将视频第一帧的各种变化传播到整个视频中。
精心设计了模型 GenProp,包含选择性内容编码器(Selective Content Encoder, SCE)、专用损失函数以及mask预测头,并提出了一个用于训练模型的合成数据生成pipeline。
本文的模型支持多种下游应用,如移除、插入、替换、编辑和跟踪。实验还表明,即使没有特定任务的数据进行训练,模型也能支持视频扩展(outpainting)。
实验结果显示,本文的模型在视频编辑和对象移除任务中优于 SOTA 方法,同时扩展了包括跟踪在内的现有任务范围。
总结速览
解决的问题
当前大规模视频生成模型在处理各种视频编辑任务时,往往聚焦于单一任务(如视频修复、外观编辑、对象插入等),而传统的视频传播方法(如光流或深度传播)易受错误积累影响,缺乏鲁棒性和泛化能力。现有方法还需要密集标注或专门针对任务进行重新训练,流程复杂且效率较低。
提出的方案
- 框架设计:提出了一个统一的视频生成传播框架——GenProp。
-
使用选择性内容编码器(Selective Content Encoder, SCE)对原视频的未变部分进行编码。
-
使用图像到视频生成模型(Image-to-Video, I2V)将第一帧的编辑传播至整段视频。
-
-
损失函数设计:引入区域感知损失(region-aware loss),确保SCE只编码未编辑区域的内容,同时优化I2V模型在修改区域的生成能力。
-
数据生成方案:利用实例级视频分割数据集生成合成数据,覆盖多种视频任务。
应用的技术
-
生成模型:通过 I2V 生成模型进行内容传播,无需依赖光流或运动预测。
-
辅助训练模块:加入辅助解码器预测修改区域,以提高编辑区域的生成质量。
-
选择性编码:通过区域感知机制,减少对已修改区域的编码干扰,增强未编辑内容的保真度。
达到的效果
-
编辑:支持对对象形状进行显著修改。
-
插入:插入的对象能够独立运动。
-
移除:可有效移除阴影、反射等对象效果。
-
跟踪:能够精确跟踪对象及其相关效果。
-
统一性:无需密集标注或任务特定的重新训练,简化了编辑流程。
方法
生成视频传播面临以下关键挑战:
-
真实性 – 第一帧中的变化应自然传播到后续帧中。
-
一致性 – 所有其他区域应与原始视频保持一致。
-
通用性 – 模型应具有足够的通用性,适用于多种视频任务。
在 GenProp 中,通过 I2V 生成模型解决 真实性(1);引入选择性内容编码器和掩膜预测解码器,并使用区域感知损失进行训练以解决 一致性(2);通过数据生成方案和通用 I2V 模型