文章链接:https://arxiv.org/pdf/2503.05639
项目链接:https://yxbian23.github.io/project/video-painter/
git链接:https://github.com/TencentARC/VideoPainter
亮点直击
提出了VideoPainter,首个支持即插即用背景控制的双分支视频修复框架。
设计了一个轻量级上下文编码器,用于高效且密集的背景控制,并引入了修复区域ID重采样技术,以在任意长度的视频修复和编辑中保持ID一致性。
推出了VPData,这是最大的视频修复数据集,包含超过390K个片段(>866.7小时),以及VPBench,两者均具备精确的masked和详细的视频描述。
实验表明,VideoPainter在视频修复和编辑中,在包括视频质量、masked区域保留和文本对齐等8项指标上均达到了最先进的性能。
总结速览
解决的问题
-
生成完全遮挡目标:现有方法在处理完全遮挡的目标时存在困难。
-
背景保留与前景生成的平衡:现有方法难以在保留背景的同时生成前景。
-
长视频中的ID一致性:现有方法在长视频中难以保持目标ID的一致性。
提出的方案
-
VideoPainter框架:提出了一种高效的双分支框架,包含一个轻量级的上下文编码器。
-
上下文编码器:该编码器处理masked视频并将背景指导注入到任何预训练的视频扩散Transformer中。
-
ID一致性策略:引入了一种重新采样修复区域的策略,以保持长视频中的ID一致性。
-
数据集和基准:开发了一个可扩展的数据集管道,构建了VPData和VPBench,这是最大的视频修复数据集和基准。
应用的技术
-
双分支架构:采用双分支架构,分别处理背景保留和前景生成。
-
轻量级上下文编码器:仅占主干参数6%的轻量级上下文编码器,集成到预训练的扩散Transformer中。
-
掩码选择性特征集成:明确区分masked和非masked区域的标记。
-
ID-Adapter:通过ID-Adapter增强主干的注意力采样,确保长视频中的ID一致性。
达到的效果
-
高效训练和最终结果:VideoPainter在训练效率和最终结果上表现出色。
-
大规模训练和评估:构建了包含超过390K个剪辑的VPData和VPBench,支持大规模训练和评估。
-
下游应用潜力:展示了VideoPainter在视频编辑等下游应用中的潜力。
-
最先进性能:在8个关键指标上展示了最先进的性能,包括视频质量、masked区域保留和文本一致性。
方法
下图3展示了构建VPData和VPBench的流程。下图4展示了双分支VideoPainter。后面介绍了用于任意长度视频修复和即插即用控制的修复区域ID重采样方法。
VPData和VPBench构建流程
为了解决数据集规模有限和缺乏文本标注的问题,本文提出了一个利用先进视觉模型的可扩展数据集构建流程。这最终形成了VPData和VPBench,这是最大的视频修复数据集和基准,具备精确的masked和视频/masked区域描述。如上图3所示,该流程包括5个步骤:收集、标注、分割、选择和描述。
收集
选择Videvo和Pexels作为数据源,最终从这些来源获得了约450𝐾个视频。
标注
对于每个收集的视频,实施了一个级联工作流进行自动标注:
-
使用Recognize Anything Model 进行开放集视频标注,以识别主要目标。
-
基于检测到的目标标签,利用Grounding DINO 在固定间隔检测目标的边界框。
-
这些边界框作为SAM2的提示,生成高质量的masked分割。
分割
在从不同角度跟踪同一目标时,可能会发生场景转换,导致视角的破坏性变化。本文使用PySceneDetect识别场景转换,并随后分割masked。然后我们将序列分割为10秒的间隔,并丢弃较短的片段(<6秒)。
选择
采用3个关键标准:
-
美学质量:使用Laion-Aesthetic Score Predictor进行评估。
-
运动强度:通过RAFT的光流测量进行预测。
-
内容安全性:通过Stable Diffusion Safety Checker进行评估。
描述
如下表1所示,现有的视频分割数据集缺乏文本标注,这是生成任务的主要条件 ,这为将生成模型应用于视频修复创造了数据瓶颈。因此,利用最先进的视觉语言模型(VLMs),特别是CogVLM2和GPT-4o,均匀采样关键帧并生成密集的视频描述和masked目标的详细描述。
双分支修复控制
本文过一个高效的上下文编码器将masked视频特征整合到预训练的扩散Transformer(DiT)中,以解耦背景上下文提取和前景生成。该编码器处理噪声隐空间表示、masked视频隐空间表示和下采样masked的拼接输入。具体来说,噪声隐空间表示提供了当前生成的信息。通过VAE提取的masked视频隐空间表示与预训练DiT的潜在分布对齐。应用三次插值对masked进行下采样,确保masked与隐空间表示之间的维度兼容性。
基于DiT固有的生成能力,控制分支仅需提取上下文线索以指导主干网络保留背景并生成前景。因此,与之前复制主干网络一半或全部的重型方法不同,VideoPainter采用轻量级设计,仅克隆预训练DiT的前两层,仅占主干网络参数的6%。预训练DiT的权重为提取masked视频特征提供了强大的先验。上下文编码器特征以分组和标记选择的方式集成到冻结的DiT中。分组特征集成公式如下:
第一层的特征被添加回主干网络的前半部分,而第二层的特征被集成到后半部分,从而实现轻量级且高效的上下文控制。标记选择机制是一个预过滤过程,其中仅表示纯背景的标记被添加回去,而其他标记被排除在集成之外,如前图4右上角所示。这确保了只有背景上下文被融合到主干网络中,防止主干网络生成过程中的潜在歧义。
特征集成如公式1所示: 表示DiT 中第层的特征,其中,为层数。相同的符号适用于,它以拼接的噪声隐空间表示、masked视频隐空间表示和下采样masked 作为输入。拼接操作表示为。表示零线性操作。
目标区域ID重采样
尽管当前的DiT在处理时间动态方面表现出潜力,但它们难以保持平滑过渡和长期身份一致性。
平滑过渡
借鉴AVID,本文采用重叠生成和加权平均来保持一致的过渡。此外,利用前一剪辑的最后一帧(重叠之前)作为当前剪辑重叠区域的第一帧,以确保视觉外观的连续性。
身份一致性
为了在长视频中保持身份一致性,本文引入了一种修复区域ID重采样方法,如前图4下部所示。在训练期间,冻结DiT和上下文编码器,然后在冻结的DiT中添加可训练的ID重采样适配器(LoRA),以实现ID重采样功能。当前masked区域的标记(包含所需ID)与KV向量拼接,从而通过额外的KV重采样增强修复区域中的ID保留。具体而言,给定当前的、和,过滤当前和中的masked区域标记,并将它们与和拼接,迫使模型重采样这些具有所需ID的标记。在推理过程中,优先保持与前一剪辑的修复区域标记的ID一致性,因为它代表了时间上最接近的生成结果。因此,将前一剪辑的masked区域标记与当前的键值向量拼接,有效地重采样并保持长视频处理中的身份信息。
即插即用控制
本文的即插即用框架在两个方面展示了多功能性:它支持各种风格化主干或LoRA,并且兼容文本到视频(T2V)和图像到视频(I2V)的DiT架构。I2V兼容性特别支持与现有图像修复能力的无缝集成。当使用I2V DiT主干时,VideoPainter仅需一个额外步骤:使用任何图像修复模型生成初始帧,该模型由masked区域的文本描述引导。修复后的帧随后作为图像条件和第一个masked视频帧。这些能力进一步展示了VideoPainter的卓越可迁移性和多功能性。
实验
实现细节
VideoPainter基于预训练的图像到视频扩散Transformer CogVideo-5B-I2V(默认)及其文本到视频版本构建。在训练中,我们使用VPData,分辨率为480×720,学习率为,批量大小为1,分别在上下文编码器(80,000步)和ID重采样适配器(2,000步)的两个阶段中使用AdamW优化器,并在64个NVIDIA V100 GPU上进行训练。
基准测试
在视频修复中,本文使用Davis作为随机masked的基准,使用VPBench作为基于分割的masked基准。VPBench包含100个6秒的视频用于标准视频修复,以及16个平均时长超过30秒的视频用于长视频修复。VPBench涵盖多样化的内容,包括物体、人类、动物、景观和多范围masked。对于视频编辑评估,也使用VPBench,其中包含四种基本编辑操作(添加、移除、替换和更改),包括45个6秒的视频和9个平均时长为30秒的视频。
评估指标
本文从三个方面考虑8个指标:masked区域保留、文本对齐和视频生成质量。
-
masked区域保留:本文遵循先前的工作,使用标准PSNR、LPIPS、SSIM 、MSE 和MAE来评估生成视频与原始视频在未masked区域的差异。
-
文本对齐:本文使用CLIP相似度(CLIP Sim)来评估生成视频与其对应文本描述的语义一致性。本文还测量masked区域内的CLIP相似度(CLIP Sim (M))。
-
视频生成质量:遵循先前的方法,本文使用FVID来评估生成视频的质量。
视频修复
定量比较
下表2展示了在VPBench和Davis上的定量比较。比较了非生成方法ProPainter、生成方法COCOCO以及本文提出的强基线Cog-Inp的修复结果。Cog-Inp使用图像修复模型修复第一帧,并通过I2V主干结合潜在混合操作传播结果。在基于分割的VPBench中,ProPainter和COCOCO在大多数指标上表现最差,主要原因是无法修复完全masked的目标以及单主干架构难以平衡背景保留和前景生成。在随机masked基准Davis中,ProPainter通过利用部分背景信息有所改进。然而,VideoPainter通过其双分支架构有效解耦背景保留和前景生成,在分割(标准和长视频)和随机masked任务中均实现了最佳性能。
定性比较
下图5展示了与之前视频修复方法的定性比较。VideoPainter在视频一致性、质量和文本描述对齐方面始终表现出色。值得注意的是,ProPainter无法生成完全masked的目标,因为它仅依赖于背景像素传播而非生成。COCOCO虽然展示了基本功能,但由于其单主干架构试图平衡背景保留和前景生成,无法在修复区域保持一致的ID(如船只外观不一致和地形突变)。Cog-Inp实现了基本的修复结果,但其混合操作无法检测masked边界,导致明显的伪影。此外,VideoPainter能够生成超过一分钟的连贯视频,并通过ID重采样保持ID一致性。
视频编辑
VideoPainter可用于视频编辑,通过视觉语言模型根据用户编辑指令和源描述生成修改后的描述,并应用VideoPainter基于修改后的描述进行修复。下表3展示了在VPBench上的定量比较。我们比较了基于反演的UniEdit、基于DiT的DiTCtrl和端到端的ReVideo的编辑结果。在VPBench的标准和长视频中,VideoPainter均表现出色,甚至超越了端到端的ReVideo。这一成功归功于其双分支架构,确保了出色的背景保留和前景生成能力,在非编辑区域保持高保真度,同时确保编辑区域与编辑指令紧密对齐,并通过修复区域ID重采样在长视频中保持ID一致性。
前面图5展示了与之前视频修复方法的定性比较。VideoPainter在保持视觉保真度和文本提示一致性方面表现出色。VideoPainter成功生成了未来飞船穿越天空的无缝动画,在整个移除过程中保持了平滑的时间过渡和精确的背景边界,而没有引入ReVideo中观察到的伪影。
人类评估
本文在VPBench修复和编辑子集的标准长度视频样本上进行了用户研究,评估视频修复和编辑任务。30名参与者基于背景保留、文本对齐和视频质量评估了50个随机选择的案例。如下表4所示,VideoPainter在所有评估标准中均显著优于现有基线,在两项任务中均获得了更高的偏好率。
消融分析
在下表5中对VideoPainter进行了消融实验,包括架构、上下文编码器大小、控制策略和修复区域ID重采样。根据第1行和第5行,双分支VideoPainter通过显式解耦背景保留和前景生成,显著优于单分支版本,从而降低了模型复杂性并避免了单分支中竞争目标之间的权衡。表5的第2至第6行展示了我们关键设计选择的理论依据:
-
使用两层结构作为上下文编码器在性能和效率之间的最佳平衡;
-
基于分割masked信息实现标记选择性特征融合,以防止主干网络中不可区分的前景-背景标记引起的混淆;
-
适应不同主干的即插即用控制,性能相当。
此外,第7和第8行验证了在长视频中使用修复区域ID重采样的重要性,通过显式重采样前一剪辑的修复区域标记来保持ID一致性。
即插即用控制能力
下图7展示了VideoPainter在基础扩散Transformer选择中的灵活即插即用控制能力。展示了VideoPainter如何与社区开发的Gromit风格LoRA无缝集成。尽管动漫风格数据与我们的训练数据集之间存在显著领域差距,VideoPainter的双分支架构确保了其即插即用的修复能力,使用户能够为特定修复需求和预期结果选择最合适的基础模型。
讨论
本文介绍了VideoPainter,这是首个具有即插即用控制能力的双分支视频修复框架。本文的方法具有三个关键创新:
-
轻量级即插即用上下文编码器,兼容任何预训练的视频DiT;
-
修复区域ID重采样技术,用于保持长视频的ID一致性;
-
可扩展的数据集管道,生成了包含超过390K个视频剪辑的VPData和VPBench,具备精确masked和密集描述。
VideoPainter在视频编辑应用中也展示了潜力。大量实验表明,VideoPainter在视频修复和编辑的8个指标上实现了最先进的性能,特别是在视频质量、masked区域保留和文本一致性方面。
VideoPainter仍存在一些局限性:
-
生成质量受限于基础模型,可能在复杂物理和运动建模方面表现不佳;
-
在低质量masked或未对齐视频描述的情况下,性能可能不理想。
参考文献
[1] VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control