
SeedVR :实现任意长度 / 分辨率的视频高效修复(2025)
本文将对《SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration》这篇文章进行解读,该文提出了SeedVR,一种Diffusion Transformer,旨在处理任意长度和分辨率的真实世界视频复原任务。SeedVR的核心设计在于采用了Swin注意力机制,有效支持长视频序列的复原。参考资料如下:
参考资料如下:
[1]. 论文地址
[2]. 代码地址
专题介绍
现在是数字化时代,图像与视频早已成为信息传递的关键载体。超分辨率(super resolution,SR)技术能够突破数据源的信息瓶颈,挖掘并增强低分辨率图像与视频的潜能,重塑更高品质的视觉内容,是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程,方案也从最早的邻域插值迭代至现今的深度学习SR,但无论是经典算法还是AI算法,都在视觉应用领域内发挥着重要作用。
本专题旨在跟进和解读超分辨率技术的发展趋势,为读者分享有价值的超分辨率方法,欢迎一起探讨交流。
系列文章如下:
【1】SR+Codec Benchmark
【2】OSEDiff
【3】PiSA
【4】DLoRAL
【5】DOVE
【6】HYPIR
一、研究背景
真实世界视频复原(VR)面临复杂且未知的退化(如模糊、噪声、低分辨率),传统方法难以在保持时间一致性的同时恢复细节。针对前沿的DiT技术方案,作者提出了当下几个主要的问题
- 依赖拼接采样(patch-based sampling)的重叠分块,导致推理缓慢。
- 自编码器缺乏时间压缩,训练和推理效率低。
- 固定分辨率限制,无法灵活处理任意长度和分辨率的视频。
例如,VEnhancer使用50个采样步长,在1344 × 768的分辨率下生成31帧图像需要387秒,即使只使用时间重叠。 同样地,Upscale-A-Video使用384 × 384的空间重叠和2的时间重叠,处理相同的视频片段需要414秒,这使得此类方案不太适合实际应用。
而该方案使用高效的视频自编码器和灵活的窗口注意力机制重新改进了以 Stable Diffusion 3 (SD3) 为基础的DiT架构,实现了任意长度和分辨率的有效和高效的VR。核心创新点提炼如下:
-
Swin-MMDiT模块:
-
移位窗口注意力机制:将Swin Transformer的移位窗口注意力机制引入到MMDiT(多模态扩散Transformer)中,形成了Swin-MMDiT。
-
超大窗口:在8倍压缩的潜空间中使用64x64的超大窗口,远大于以往常用的8x8或40x40窗口,从而能捕获更长的范围依赖关系。
-
可变窗口尺寸:为了解决输入尺寸无法被窗口整除的问题,在边界处采用可变尺寸的窗口,使模型能直接处理任意分辨率和长度的视频,无需依赖拼接采样(tiled sampling)。
-
3D旋转位置编码:在每个窗口内使用3D旋转位置编码(RoPE),以建模窗口大小变化带来的位置偏置,优于绝对位置编码。
-
-
因果视频自编码器(CV-VAE):
-
从零训练:不微调图像自编码器,而是从零开始训练一个视频自编码器。
-
因果3D残差块:采用因果3D残差块,使其能处理长视频。
-
时空压缩:采用4倍时间压缩和8倍空间压缩,显著提升效率。
-
增加潜在通道:将潜在通道数从4增加到16,以提升重建质量。
-
-
训练策略创新:
-
大规模混合数据:在超大规模的图像和视频数据集上进行联合训练。
-
预计算潜变量:预计算HQ和LQ视频的潜变量以及文本嵌入,将训练速度提升4倍。
-
渐进式训练:从低分辨率、短时长视频开始,逐步增加到高分辨率、长时长视频,加速收敛。
-
条件噪声注入:向LQ条件潜变量中注入随机噪声,以弥合合成数据与真实世界数据的差距。
-

二、方法细节
如上所述,SeedVR的核心就是Swin-MMDiT模块,其架构基于SD3的MMDiT(如图),可以看到其差异主要就在这个Swin-MMDiT模块上。

2.1 Swin-MMDiT 模块

如图,其输入为多帧视频特征
X
∈
R
T
×
H
×
W
×
d
X \in \mathbb{R}^{T \times H \times W \times d}
X∈RT×H×W×d和文本嵌入
C
text
∈
R
L
×
d
C_{\text{text}} \in \mathbb{R}^{L \times d}
Ctext∈RL×d,将
X
X
X展平成
X
′
∈
R
T
H
W
×
d
X' \in \mathbb{R}^{T H W \times d}
X′∈RTHW×d,分别提取对应的QKV,
(
Q
X
′
,
K
X
′
,
V
X
′
)
and
(
Q
text
,
K
text
,
V
text
)
(Q_{X'}, K_{X'}, V_{X'}) \text{ and } (Q_{\text{text}}, K_{\text{text}}, V_{\text{text}})
(QX′,KX′,VX′) and (Qtext,Ktext,Vtext)。
在full attention计算中,直接将两个QKV Cat在一起,得到 ( Cat ( Q X ′ , Q text ) , Cat ( K X ′ , K text ) , Cat ( V X ′ , V text ) ) (\text{Cat}(Q_{X'}, Q_{\text{text}}), \text{Cat}(K_{X'}, K_{\text{text}}), \text{Cat}(V_{X'}, V_{\text{text}})) (Cat(QX′,Qtext),Cat(KX′,Ktext),Cat(VX′,Vtext))。
而Swin-MMDiT Block没有使用full attention,而是做了窗口划分,最开始Transformer块使用常规窗口注意力(从左上角开始)。然后Transformer块使用移位窗口注意力(在三个维度上偏移一半窗口大小)。
这里利用NaViT和Flash Attention的灵活性,将每个窗口内的特征展平为一个2D张量,然后在该张量内计算注意力,无需复杂的3D掩码操作。
同时,使用了3D相对旋转位置编码(RoPE) 代替绝对位置编码,以适应可变窗口大小,避免分辨率偏置。
注意力计算时,与原始MMDiT不同,视频和文本特征分别使用独立的注意力机制(而非单一的多模态注意力),以简化计算。
2.2 Causal Video VAE
现有针对视频的VAE通常会采用3D 卷积,在没有时间压缩下,训练和推理效率均不高。若限制潜空间的通道数,重建效果又会下降。基于这些问题,该方案对自编码进行了改进并重头训练。采用了causal 3D residual block代替传统3D block,如下图,旨在捕获时空特征并支持长视频处理。同时,空间压缩因子为8,时间压缩因子为4,将latent通道数从4提升到16,以增强重建能力。

其结构主要包含了Causal Conv 3D,ResBlock3D,Spat.Down/Up,Spat-Temp.Down/Up,Spat.attn和GroupNorm这几个模块,比较好理解。
因果(Causal)指的是输出只依赖于当前及之前时刻/位置的输入,严格禁止使用未来信息,确保时间或空间上的先后顺序不被破坏。
3D因果卷积在处理视频或序列数据时,也严格遵守这个规矩:每一帧的预测只能基于之前看到的画面,绝不作弊看后面的内容。(时间和空间上同步施加类似因果约束)
至于新VAE的训练,则是在大规模数据集上使用L1损失、LPIPS损失和GAN损失进行的。
2.3 Large-scale Training
除了模型架构,作者进一步研究了训练数据和训练策略。基于此架构的灵活性,可以同时在图像和视频数据集上训练。
- 数据集
重新整了一个大规模的新数据集,包含了1000万张图像和500万段视频。图像分辨率不同,大部分超过1M分辨率,视频则为720p。基于多个评价指标过滤低质量样本。随机裁剪做训练,且调整裁剪比有助于获得更好的效果。
- 预计算 Latents 和 文本embeddings
目前VAE的编码结果是固定的,因此作者提出了预计算策略,提前计算好HQ和LQ的latent features和文本embeddings,这部分可以实现4x提速。此外,无需加载预训练的VAE和文本模型,也节省了一些GPU内存,允许更大的批处理大小用于训练(针对Swin-MMDiT的训练)。
- 渐进式增长训练
模型是基于SD3-Medium-2.2B上训练的,虽然可以处理高分辨率。但作者发现直接适配到该架构是具有挑战性的。因此先从小帧率小分辨率开始训练,逐步增加训练数据的帧率和分辨率,并发现这种渐进式调优策略有助于模型快速收敛。
- 向条件中注入噪声
作者沿用现有的方法来创建用于训练的合成LQ - HQ图像和视频对。虽有效,但与real world的退化仍有差距,合成数据的退化比真实数据要严重(这个观点不太认同,真实数据的退化可能更为复杂,不能一概而论)。简单地降低合成训练数据的退化程度会削弱模型的生成能力。因此采取了对潜在LQ条件注入随机噪声的策略。公式为 C LQ τ = α τ C LQ + σ τ ϵ , where ϵ ∼ N ( 0 , I ) C_{\text{LQ}}^\tau = \alpha_\tau C_{\text{LQ}} + \sigma_\tau \epsilon, \text{ where } \epsilon \sim \mathcal{N}(0, I) CLQτ=ατCLQ+στϵ, where ϵ∼N(0,I), τ \tau τ是由 α t \alpha_t αt和 σ t \sigma_t σt定义的噪声时间表中与早期步骤相关的噪声水平。
除此之外,还通过随机将文本输入替换空提示,实现了文本编码器的灵活运用。虽然还有其他增强生成能力的策略,但出于对保真度的权衡,估并未加入。
三、实验论证
- 数据集:在合成数据集(SPMCS, UDM10, REDS30, YouHQ40)、真实世界数据集(VideoLQ)和AI生成视频数据集(AIGC38)上进行评估。
- 测试:所有测试视频统一处理为720p,保持原始长度。
- 指标:
- 有参考指标(用于合成数据集):PSNR, SSIM, LPIPS, DISTS。
- 无参考指标(用于真实世界和AI生成数据集):NIQE, CLIP-IQA, MUSIQ, DOVER。
3.1 定量结果
SeedVR在大部分数据集上取得了最优或次优的性能,尤其在感知质量指标上表现突出。这表明模型能生成视觉上更逼真、细节更丰富的视频。

3.2 定性结果
SeedVR在退化去除和纹理生成方面都比现有的对比方法有很大的优势,有效地恢复了细节结构。

3.3 消融实验
VAE对比:提出的CV-VAE在视频重建质量上表现优异,不过参数量也是最大的。

窗口大小影响:使用更大的窗口(如64x64)能显著提高训练和推理效率。在YouHQ40数据集上,5x64x64的窗口尺寸取得了最佳的性能,证明了大窗口在捕获长距离依赖和语义对齐方面的优势。


这里为什么full attention反而效果不佳,原因在于训练不足,未能有效收敛,导致效果不佳。
这进一步表明了,在有限资源下,该方案会比全注意力模型更有优势。
四、总结和思考
该论文提出了SeedVR,这是一种全新的、面向通用视频修复的扩散Transformer模型。三大核心要点“Swin-MMDiT模块”,“因果视频自编码器(CV-VAE)”,“特殊的训练策略”,成功改善了现有扩散视频修复方法在处理任意分辨率和长度以及采样效率方面的问题。
并且作者认为,SeedVR作为首个大规模扩散Transformer视频修复模型,将为未来的研究提供一个强大的基线,但本方案并非单步扩散。不过该团队目前已推出了新的单步方案——SeedVR2。
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。

被折叠的 条评论
为什么被折叠?



