AI生成未来 | 视频去物“魔法橡皮擦”来了！MiniMax-Remover：新SOTA方法告别CFG，6步搞定

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 1.8k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #VLM

本文来源公众号“AI生成未来”，仅用于学术分享，侵权删，干货满满。

原文链接：视频去物“魔法橡皮擦”来了！MiniMax-Remover：新SOTA方法告别CFG，6步搞定

论文链接：https://arxiv.org/pdf/2505.24873
项目链接：https://minimax-remover.github.io/

亮点直击

提出了一种轻量且高效的基于 DiT 的视频目标移除架构。MiniMax-Remover。受到“文本提示并不适合目标移除任务”这一观察的启发，用可学习的对比tokens（contrastive tokens）替代了文本条件，用于控制移除过程。这些 tokens被直接集成到自注意力流中，能够移除预训练视频生成模型中的所有交叉注意力层。在第一阶段中，本文模型参数更少，并且不再依赖模糊的文本指令。

在第二阶段，在第一阶段模型生成的1万条人工筛选的视频移除结果上进行了蒸馏训练，并采用了 min-max 优化策略。

在多个基准测试上进行了大量实验，表明本文方法在推理速度和视觉保真度方面都表现优越。

如下图4和下表1所示，本文模型在仅使用6个采样步骤的情况下即可生成高质量的移除结果，并且无需依赖无分类器引导（CFG）。

总结速览

解决的问题

视频目标移除中的核心挑战：
- 模型容易生成幻觉物体（hallucinated objects）
- 存在视觉伪影（visual artifacts）
现有方法的局限性：
- 依赖计算成本高的采样过程
- 严重依赖无分类器引导（Classifier-Free Guidance, CFG）
- 推理速度慢，效率低

提出的方案

提出 MiniMax-Remover：一种两阶段的视频目标移除方法，包括：
1. 第一阶段：设计一个轻量化的视频扩散模型，移除文本条件输入和交叉注意力机制，减少模型复杂度。
2. 第二阶段：基于第一阶段生成并人工筛选的高质量结果进行蒸馏训练，引入 minimax 优化策略 提升鲁棒性与效果。

应用的技术

架构简化：
- 移除文本输入和 cross-attention 层
- 使用可学习的对比 tokens （contrastive tokens）替代文本条件，直接嵌入自注意力流中
蒸馏训练：
- 在1万条人工筛选的成功视频移除结果上进行蒸馏，提升模型泛化能力
Minimax 优化策略：
- 内层最大化：寻找能诱发模型失败的“坏噪声”
- 外层最小化：训练模型即使在恶劣输入下也能生成高质量结果

达到的效果

高质量视频目标移除：
- 仅使用 6 个采样步即可生成高保真移除结果
- 无需依赖 CFG，减少计算资源消耗
推理效率显著提升：
- 模型更轻量，处理速度更快，适合实际部署
广泛实验验证优越性：
- 在多个基准测试中表现出色，如上图4和上表1所示
- 在视觉质量和推理速度上均优于现有方法

方法论

总体框架

阶段 1：训练一个轻量级的视频目标移除模型。 本文方法遵循标准的视频修复流程，但在此基础上做出了两个简单而有效的改进。首先，本文通过移除无关组件设计了一个轻量级架构。与许多现有方法，如[56, 53, 46, 24]不同，本文不使用文本提示或光流等额外输入，因此可以移除所有的交叉注意力层。其次，本文引入了两个对比条件 tokens 来引导修复过程：一个是正向 tokens ，用于鼓励模型在被遮挡区域内填充内容；另一个是负向 tokens ，用于抑制模型在这些区域生成不需要的物体。需要注意的是，与以往工作，如[53, 54, 23] 不同，本文仅使用目标 mask ，不依赖其他附加条件。

阶段 2：通过人工引导的 minimax 优化增强模型的鲁棒性与效率。 首先使用阶段 1 的模型生成修复后的视频样本，然后请人工标注者挑选出成功的结果。在这个经过筛选的子集上，本文应用 minimax 优化训练策略，以增强模型的鲁棒性和生成质量。此外，蒸馏后的移除器在不使用 CFG 的情况下，仅需 6 步即可完成推理，从而实现快速推理。最终改进后的模型被称为 MiniMax-Remover。

阶段 1：用于视频目标移除的简单架构

本文方法基于预训练的视频生成模型 Wan2.1-1.3B，该模型是一个基于 DiT 架构的 Flow Matching 模型。

模型架构

从 DiT 中移除交叉注意力带来了一个挑战：如何在不依赖文本提示的情况下有效注入条件信息。一个直接的方法是重用 shift table 来同时编码时间步和条件信息。然而，本文实验表明，这种方式会导致条件修复效果不佳。为了实现更有效的条件控制，本文选择将对比条件 tokens 通过自注意力模块注入到 DiT 块中。

具体而言，本文使用一个可学习的嵌入层将条件 tokens 映射到高维特征空间，然后将该特征拆分为 6 个 token，以增强在注意力计算过程中的控制能力。这些条件 token 被拼接到原始的 key 和 value 中，从而在不大幅修改架构的前提下实现有效的条件控制。

用于目标移除的对比条件控制

正向 token 引导移除网络学习目标移除，而负向 token 则鼓励模型生成目标内容。本文需要指出，在第一阶段训练中本文使用了 CFG 以促进条件学习。然而，在第二阶段中 CFG 被移除，以提高推理效率。

第一阶段的局限性

尽管在简洁性和速度方面有所提升，当前模型仍面临三个局限性。(1) CFG 会使推理时间加倍，并且需要手动调整引导尺度，而该尺度在不同视频中可能有所不同。(2) 每帧采样 50 个扩散步骤仍然耗时较长。(3) 在目标移除区域内偶尔会出现伪影或不希望出现的目标重建，表明对比信号尚未完全发挥作用。为了解决这些问题，本文引入第二阶段方法，旨在提升鲁棒性、质量和效率。

MiniMax-Remover：基于人类反馈蒸馏更强的视频目标移除器

尽管本文视频目标移除器经过对比调控训练，但它仍然会产生明显伪影，甚至偶尔重建本应被移除的目标。进一步观察表明，这些失败案例与特定的输入噪声模式密切相关。这一发现促使本文设定目标：识别这些“坏噪声”，并训练目标移除模型对其具备鲁棒性。

minmax 优化也使本文能够摆脱对 CFG 的依赖。在第二阶段中，本文移除了 CFG 以提高采样效率。具体而言，在训练过程中，本文省略了正向和负向条件 token。本文选择将对此设计的更多分析放在附录中。

搜索“坏”噪声

针对“坏”噪声的鲁棒性优化

在第二阶段，本文通过在对抗性噪声样本上微调模型，以增强其鲁棒性。本文最小化以下目标函数：

MiniMax-Remover 的优势

MiniMax-Remover 拥有几个关键优势：

低训练开销。 它仅需一次反向传播来搜索“坏”噪声，并使用简化的架构训练移除器，从而减少了内存消耗。
快速推理速度。 MiniMax-Remover 仅使用 6 步采样且不依赖 CFG，相比以往方法显著加快了推理速度。
高质量。 由于模型经过训练能抵御“坏”噪声，它很少在 mask 区域生成意外物体或视觉伪影，从而带来更高的质量。

实验

训练数据集。 在第一阶段，本文使用 Grounded-SAM2和 CogVLM2提供的字幕在无水印的 WebVid-10M 数据集上生成 mask 。随机选取约 250 万对视频- mask 对用于训练。在第二阶段，本文从 Pexels收集了 1.7 万个视频，并应用与第一阶段相同的标注流程。这些视频随后使用第一阶段的模型进行处理，并手动挑选出 1 万个视频用于第二阶段训练。

推理细节。 推理使用 RTX 4090 GPU 进行。在输入分辨率为 480p、帧长度为 81 的设置下，每个视频推理大约耗时 24 秒，峰值 GPU 显存消耗约为 14GB（DiT 占用 8GB，VAE 解码占用 6GB），使用 6 步采样。

基线方法。 本文将方法与 Propainter、VideoComposer 、COCOCO、FloED、DiffuEraser、VideoPainter和 VACE进行比较。本文将评估帧长度设为 32。为了使用相同的帧长度进行评估，本文扩展了 VideoComposer和 FloED的输入帧长度。其余的视频修复方法则使用其代码库中的默认帧长度。帧分辨率使用各自的默认设置。

评估指标。 本文使用 SSIM 和 PSNR 评估背景保留效果。TC 用于评估时间一致性，遵循 COCOCO 和 AVID，使用 CLIP-ViT-h-b14提取特征。GPT-O3用作客观指标。本文在 DAVIS 数据集和 200 个随机选取的 Pexels 视频上评估这些指标，以展示在不同数据集上的泛化能力。需要注意的是，这 200 个 Pexels 视频不包含在本文训练数据集中，其 mask 由 GroundedSAM2 提取。在用户研究中，参与者会看到一个多选问卷，要求识别哪个视频最有效地移除了原始视频中的目标对象，同时不引入模糊、视觉伪影或 mask 区域中的幻觉内容。

定量比较

如下表 2 所示，本文方法在所有 90 个 DAVIS 视频上均优于以往的基线方法，达到了 SSIM 为 0.9847 和 PSNR 为 36.66。值得注意的是，即使仅使用 6 步采样，本文方法也能生成高质量视频，并有效保留背景细节。此外，本文方法在时间一致性方面表现优越，显著优于如 VACE等生成模型，甚至超越了传统修复方法 Propainter。这些结果表明，本文模型始终能够产生视觉上令人满意且高质量的视频目标移除效果。在 200 个 Pexels 视频上的表现也呈现出类似趋势，本文方法在 SSIM、PSNR 和时间一致性得分上均为最高。此外，减少采样步数并不会显著降低移除性能。

定性结果

消融实验

为了理解本文方法中各个组件和修改的影响，本文进行了逐步的消融实验。所有实验均使用 50 步采样。

第一阶段。 本文首先考察文本编码器和基于提示的条件的作用。在 Ab-1 和 Ab-2 的比较中（见下表 3），本文用可学习的对比 token 替换了文本编码器和提示。结果显示性能没有显著下降，说明在使用合适的可学习 token 时，文本编码器对于移除任务是冗余的。

接下来比较 Ab-2 和 Ab-3，本文在从 DiT 中移除交叉注意力模块后观察到轻微的性能下降。然而，当本文在自注意力层中引入可学习的对比条件 token（Ab-4）时，结果不仅恢复了，还超过了 Ab-1。这表明本文简化的 DiT 架构是有效的。

第二阶段。 本文比较了使用和不使用人工标注数据训练的模型。结果（Ab-1 对比 Ab-2）显示，仅使用人工标注数据并不能显著提升性能，这可能是由于数据集规模（1 万个视频）和多样性有限，限制了泛化能力。

此外，本文比较了训练中使用的不同噪声类型（Ab-2 到 Ab-3）。本文发现将“坏噪声”（人为退化的输入）加入训练能显著提升性能。

结论

MiniMax Remover，一个用于视频中目标移除的两阶段框架。在第一阶段，本文通过移除交叉注意力并用对比条件 token 替换提示嵌入，对预训练的 DiT 进行了简化。在第二阶段，本文应用最小-最大优化：最大步骤寻找导致失败案例的挑战性噪声输入，而最小步骤训练模型从这些对抗输入中成功重建目标。通过这种两阶段训练，本文方法实现了更干净且视觉效果更佳的移除结果。由于无需分类器自由引导（CFG）且仅使用 6 步采样，推理速度显著加快。大量实验表明，本文模型在多个基准上均实现了出色的移除性能。