即插即用！腾讯&港中文发布影视后期黑科技！VideoPainter：视频编辑修复8项SOTA!-优快云博客

本文链接：https://blog.youkuaiyun.com/AIGCer/article/details/146232461

文章链接：https://arxiv.org/pdf/2503.05639
项目链接：https://yxbian23.github.io/project/video-painter/
git链接：https://github.com/TencentARC/VideoPainter

亮点直击

提出了VideoPainter，首个支持即插即用背景控制的双分支视频修复框架。

设计了一个轻量级上下文编码器，用于高效且密集的背景控制，并引入了修复区域ID重采样技术，以在任意长度的视频修复和编辑中保持ID一致性。

推出了VPData，这是最大的视频修复数据集，包含超过390K个片段（>866.7小时），以及VPBench，两者均具备精确的masked和详细的视频描述。

实验表明，VideoPainter在视频修复和编辑中，在包括视频质量、masked区域保留和文本对齐等8项指标上均达到了最先进的性能。

总结速览

解决的问题

生成完全遮挡目标：现有方法在处理完全遮挡的目标时存在困难。
背景保留与前景生成的平衡：现有方法难以在保留背景的同时生成前景。
长视频中的ID一致性：现有方法在长视频中难以保持目标ID的一致性。

提出的方案

VideoPainter框架：提出了一种高效的双分支框架，包含一个轻量级的上下文编码器。
上下文编码器：该编码器处理masked视频并将背景指导注入到任何预训练的视频扩散Transformer中。
ID一致性策略：引入了一种重新采样修复区域的策略，以保持长视频中的ID一致性。
数据集和基准：开发了一个可扩展的数据集管道，构建了VPData和VPBench，这是最大的视频修复数据集和基准。

应用的技术

双分支架构：采用双分支架构，分别处理背景保留和前景生成。
轻量级上下文编码器：仅占主干参数6%的轻量级上下文编码器，集成到预训练的扩散Transformer中。
掩码选择性特征集成：明确区分masked和非masked区域的标记。
ID-Adapter：通过ID-Adapter增强主干的注意力采样，确保长视频中的ID一致性。

达到的效果

高效训练和最终结果：VideoPainter在训练效率和最终结果上表现出色。
大规模训练和评估：构建了包含超过390K个剪辑的VPData和VPBench，支持大规模训练和评估。
下游应用潜力：展示了VideoPainter在视频编辑等下游应用中的潜力。
最先进性能：在8个关键指标上展示了最先进的性能，包括视频质量、masked区域保留和文本一致性。

方法

下图3展示了构建VPData和VPBench的流程。下图4展示了双分支VideoPainter。后面介绍了用于任意长度视频修复和即插即用控制的修复区域ID重采样方法。

VPData和VPBench构建流程

为了解决数据集规模有限和缺乏文本标注的问题，本文提出了一个利用先进视觉模型的可扩展数据集构建流程。这最终形成了VPData和VPBench，这是最大的视频修复数据集和基准，具备精确的masked和视频/masked区域描述。如上图3所示，该流程包括5个步骤：收集、标注、分割、选择和描述。

收集
选择Videvo和Pexels作为数据源，最终从这些来源获得了约450𝐾个视频。
标注
对于每个收集的视频，实施了一个级联工作流进行自动标注：

使用Recognize Anything Model 进行开放集视频标注，以识别主要目标。
基于检测到的目标标签，利用Grounding DINO 在固定间隔检测目标的边界框。
这些边界框作为SAM2的提示，生成高质量的masked分割。

分割
在从不同角度跟踪同一目标时，可能会发生场景转换，导致视角的破坏性变化。本文使用PySceneDetect识别场景转换，并随后分割masked。然后我们将序列分割为10秒的间隔，并丢弃较短的片段（<6秒）。

选择
采用3个关键标准：

美学质量：使用Laion-Aesthetic Score Predictor进行评估。
运动强度：通过RAFT的光流测量进行预测。
内容安全性：通过Stable Diffusion Safety Checker进行评估。

描述
如下表1所示，现有的视频分割数据集缺乏文本标注，这是生成任务的主要条件，这为将生成模型应用于视频修复创造了数据瓶颈。因此，利用最先进的视觉语言模型（VLMs），特别是CogVLM2和GPT-4o，均匀采样关键帧并生成密集的视频描述和masked目标的详细描述。

双分支修复控制

本文过一个高效的上下文编码器将masked视频特征整合到预训练的扩散Transformer（DiT）中，以解耦背景上下文提取和前景生成。该编码器处理噪声隐空间表示、masked视频隐空间表示和下采样masked的拼接输入。具体来说，噪声隐空间表示提供了当前生成的信息。通过VAE提取的masked视频隐空间表示与预训练DiT的潜在分布对齐。应用三次插值对masked进行下采样，确保masked与隐空间表示之间的维度兼容性。

基于DiT固有的生成能力，控制分支仅需提取上下文线索以指导主干网络保留背景并生成前景。因此，与之前复制主干网络一半或全部的重型方法不同，VideoPainter采用轻量级设计，仅克隆预训练DiT的前两层，仅占主干网络参数的6%。预训练DiT的权重为提取masked视频特征提供了强大的先验。上下文编码器特征以分组和标记选择的方式集成到冻结的DiT中。分组特征集成公式如下：

第一层的特征被添加回主干网络的前半部分，而第二层的特征被集成到后半部分，从而实现轻量级且高效的上下文控制。标记选择机制是一个预过滤过程，其中仅表示纯背景的标记被添加回去，而其他标记被排除在集成之外，如前图4右上角所示。这确保了只有背景上下文被融合到主干网络中，防止主干网络生成过程中的潜在歧义。

特征集成如公式1所示：表示DiT 中第层的特征，其中，为层数。相同的符号适用于，它以拼接的噪声隐空间表示、masked视频隐空间表示和下采样masked 作为输入。拼接操作表示为。表示零线性操作。

目标区域ID重采样

尽管当前的DiT在处理时间动态方面表现出潜力，但它们难以保持平滑过渡和长期身份一致性。

平滑过渡
借鉴AVID，本文采用重叠生成和加权平均来保持一致的过渡。此外，利用前一剪辑的最后一帧（重叠之前）作为当前剪辑重叠区域的第一帧，以确保视觉外观的连续性。

身份一致性
为了在长视频中保持身份一致性，本文引入了一种修复区域ID重采样方法，如前图4下部所示。在训练期间，冻结DiT和上下文编码器，然后在冻结的DiT中添加可训练的ID重采样适配器（LoRA），以实现ID重采样功能。当前masked区域的标记（包含所需ID）与KV向量拼接，从而通过额外的KV重采样增强修复区域中的ID保留。具体而言，给定当前的、和，过滤当前和中的masked区域标记，并将它们与和拼接，迫使模型重采样这些具有所需ID的标记。在推理过程中，优先保持与前一剪辑的修复区域标记的ID一致性，因为它代表了时间上最接近的生成结果。因此，将前一剪辑的masked区域标记与当前的键值向量拼接，有效地重采样并保持长视频处理中的身份信息。

即插即用控制

本文的即插即用框架在两个方面展示了多功能性：它支持各种风格化主干或LoRA，并且兼容文本到视频（T2V）和图像到视频（I2V）的DiT架构。I2V兼容性特别支持与现有图像修复能力的无缝集成。当使用I2V DiT主干时，VideoPainter仅需一个额外步骤：使用任何图像修复模型生成初始帧，该模型由masked区域的文本描述引导。修复后的帧随后作为图像条件和第一个masked视频帧。这些能力进一步展示了VideoPainter的卓越可迁移性和多功能性。

实验

实现细节

VideoPainter基于预训练的图像到视频扩散Transformer CogVideo-5B-I2V（默认）及其文本到视频版本构建。在训练中，我们使用VPData，分辨率为480×720，学习率为，批量大小为1，分别在上下文编码器（80,000步）和ID重采样适配器（2,000步）的两个阶段中使用AdamW优化器，并在64个NVIDIA V100 GPU上进行训练。

基准测试
在视频修复中，本文使用Davis作为随机masked的基准，使用VPBench作为基于分割的masked基准。VPBench包含100个6秒的视频用于标准视频修复，以及16个平均时长超过30秒的视频用于长视频修复。VPBench涵盖多样化的内容，包括物体、人类、动物、景观和多范围masked。对于视频编辑评估，也使用VPBench，其中包含四种基本编辑操作（添加、移除、替换和更改），包括45个6秒的视频和9个平均时长为30秒的视频。

评估指标
本文从三个方面考虑8个指标：masked区域保留、文本对齐和视频生成质量。

masked区域保留：本文遵循先前的工作，使用标准PSNR、LPIPS、SSIM 、MSE 和MAE来评估生成视频与原始视频在未masked区域的差异。
文本对齐：本文使用CLIP相似度（CLIP Sim）来评估生成视频与其对应文本描述的语义一致性。本文还测量masked区域内的CLIP相似度（CLIP Sim (M)）。
视频生成质量：遵循先前的方法，本文使用FVID来评估生成视频的质量。

视频修复

定量比较
下表2展示了在VPBench和Davis上的定量比较。比较了非生成方法ProPainter、生成方法COCOCO以及本文提出的强基线Cog-Inp的修复结果。Cog-Inp使用图像修复模型修复第一帧，并通过I2V主干结合潜在混合操作传播结果。在基于分割的VPBench中，ProPainter和COCOCO在大多数指标上表现最差，主要原因是无法修复完全masked的目标以及单主干架构难以平衡背景保留和前景生成。在随机masked基准Davis中，ProPainter通过利用部分背景信息有所改进。然而，VideoPainter通过其双分支架构有效解耦背景保留和前景生成，在分割（标准和长视频）和随机masked任务中均实现了最佳性能。

定性比较
下图5展示了与之前视频修复方法的定性比较。VideoPainter在视频一致性、质量和文本描述对齐方面始终表现出色。值得注意的是，ProPainter无法生成完全masked的目标，因为它仅依赖于背景像素传播而非生成。COCOCO虽然展示了基本功能，但由于其单主干架构试图平衡背景保留和前景生成，无法在修复区域保持一致的ID（如船只外观不一致和地形突变）。Cog-Inp实现了基本的修复结果，但其混合操作无法检测masked边界，导致明显的伪影。此外，VideoPainter能够生成超过一分钟的连贯视频，并通过ID重采样保持ID一致性。

视频编辑

VideoPainter可用于视频编辑，通过视觉语言模型根据用户编辑指令和源描述生成修改后的描述，并应用VideoPainter基于修改后的描述进行修复。下表3展示了在VPBench上的定量比较。我们比较了基于反演的UniEdit、基于DiT的DiTCtrl和端到端的ReVideo的编辑结果。在VPBench的标准和长视频中，VideoPainter均表现出色，甚至超越了端到端的ReVideo。这一成功归功于其双分支架构，确保了出色的背景保留和前景生成能力，在非编辑区域保持高保真度，同时确保编辑区域与编辑指令紧密对齐，并通过修复区域ID重采样在长视频中保持ID一致性。

前面图5展示了与之前视频修复方法的定性比较。VideoPainter在保持视觉保真度和文本提示一致性方面表现出色。VideoPainter成功生成了未来飞船穿越天空的无缝动画，在整个移除过程中保持了平滑的时间过渡和精确的背景边界，而没有引入ReVideo中观察到的伪影。

人类评估

本文在VPBench修复和编辑子集的标准长度视频样本上进行了用户研究，评估视频修复和编辑任务。30名参与者基于背景保留、文本对齐和视频质量评估了50个随机选择的案例。如下表4所示，VideoPainter在所有评估标准中均显著优于现有基线，在两项任务中均获得了更高的偏好率。

消融分析

在下表5中对VideoPainter进行了消融实验，包括架构、上下文编码器大小、控制策略和修复区域ID重采样。根据第1行和第5行，双分支VideoPainter通过显式解耦背景保留和前景生成，显著优于单分支版本，从而降低了模型复杂性并避免了单分支中竞争目标之间的权衡。表5的第2至第6行展示了我们关键设计选择的理论依据：

使用两层结构作为上下文编码器在性能和效率之间的最佳平衡；
基于分割masked信息实现标记选择性特征融合，以防止主干网络中不可区分的前景-背景标记引起的混淆；
适应不同主干的即插即用控制，性能相当。
此外，第7和第8行验证了在长视频中使用修复区域ID重采样的重要性，通过显式重采样前一剪辑的修复区域标记来保持ID一致性。

即插即用控制能力

下图7展示了VideoPainter在基础扩散Transformer选择中的灵活即插即用控制能力。展示了VideoPainter如何与社区开发的Gromit风格LoRA无缝集成。尽管动漫风格数据与我们的训练数据集之间存在显著领域差距，VideoPainter的双分支架构确保了其即插即用的修复能力，使用户能够为特定修复需求和预期结果选择最合适的基础模型。