【超分辨率专题】DLoRAL：视频超分辨率的新范式，细节与时序一致的双重提升-优快云博客

在这里插入图片描述

DLoRAL：视频超分辨率的新范式，细节与时序一致的双重提升（2025）

专题介绍
一、研究背景
二、方法细节
三、实验论证
四、总结和思考

本文将对《One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution》这篇文章进行解读，这是一篇VSR领域内的单步Diff技术方案，跟PiSA、OSEDiff是同一个研究团队。参考资料如下：
参考资料如下：
[1]. 论文地址
[2]. 代码地址

专题介绍

现在是数字化时代，图像与视频早已成为信息传递的关键载体。超分辨率（super resolution，SR）技术能够突破数据源的信息瓶颈，挖掘并增强低分辨率图像与视频的潜能，重塑更高品质的视觉内容，是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程，方案也从最早的邻域插值迭代至现今的深度学习SR，但无论是经典算法还是AI算法，都在视觉应用领域内发挥着重要作用。

本专题旨在跟进和解读超分辨率技术的发展趋势，为读者分享有价值的超分辨率方法，欢迎一起探讨交流。

系列文章如下：
【1】SR+Codec Benchmark
【2】OSEDiff
【3】PiSA

一、研究背景

超分的价值不必多说，是low-level领域的重点方向之一。近年来，预训练的基于扩散的文本到图像（T2I）模型（如Stable Diffusion）在真实世界图像超分辨率（Real-ISR）中展示了令人印象深刻的结果，能够生成真实的纹理。这启发了研究者探索扩散模型用于真实世界视频超分辨率（Real-VSR）的可能性。

尽管SD在Real-ISR中取得了一定成功，但在将其扩展到Real-VSR时，仍面临了挑战：如何在生成丰富空间细节的同时保持时间一致性？
现有SD-based Real-VSR方法通常为了时间一致性，而牺牲一定感知质量，这里主要有两个局限性：

这些方法在单一模型中联合优化细节和一致性，导致了次优的权衡。提高一个目标通常损害另一个目标。
忽略了real-LQ视频中存在的具有退化鲁棒性的时序先验信息，这类信息可以有效利用来帮助将细节生成锚定在一致的时间基础上。

为此，作者提出了DLoRAL方案，“首次”将单步Diff技术应用于VSR任务中，显著提高了推理速度（比现有方法快约10倍），同时保持了高重建质量。创新点如下：

双LoRA学习范式：将时序一致性和空间细节的学习解耦到两个专用的LoRA模块中，解决了目标优化冲突。
跨帧检索模块（CFR）：设计了一个专门的注意力机制，从相邻的退化帧中提取结构对齐的时间特征，帮助模型学习对退化鲁棒的表示，为时序一致性学习提供稳定且信息丰富的特征。
分阶段训练策略：采用动态双阶段训练方案，首先学习时序一致性，然后增强空间细节，两个阶段交替进行，使每个模块能够专注于自己的目标。通过动态损失重加权实现平滑过渡，避免训练不稳定。

虽然文中提到首创性，但另一篇DOVE也提到了首创性，同样是用单步Diff实现了VSR，两者时间相差不多。后续有时间也会做个解读。

可以从下图看到，DLoRAL在大多数指标上都有突破，且耗时还非常小。
在这里插入图片描述
另一方面，VSR的主要范式有两种，

滑动窗口式：基于相邻N帧推理出当前帧结果，参考信息更丰富；计算量大，仅具备短时间信息参考。
循环式：每次都参考前帧的信息，更加高效；但易产生误差累积和细节退化。

该方案为了更好地保留空间和时间细节，采用了滑动窗口的范式。

二、方法细节

这里所强调的问题点是如何增强空间细节的同时又能保证时序一致性。
从哪个点去突破呢？作者分析了real-LQ视频的特点，又总结了当前SD-based VSR方法局限性，从而提出了该创新框架。

说白了就是两个点

退化视频的时序信息未能有效利用，帧与帧间仍保持着内在结构和语义的一致性，这不得好好利用。
现有方法针对空间增强和时序一致这两个冲突点未能解耦，从而选择了次优解。

参考PiSA，掏出目标解耦小妙招，双LoRA架构！

在这里插入图片描述
咱们直接看框架，基础网络仍是预训练的SD模型（包括VAE encoder，SD Unet和VAE decoder），在SD UNet中嵌入两个LoRA分支：

C-LoRA：学习时序一致性
D-LoRA：增强空间细节

采用滑动窗口策略，每帧用当前帧和前一帧（参考帧）共同重建。其中第一帧没有参考帧，就复制一份作为参考帧。

训练包括两个阶段，temporal consistency stage和detail enhancement stage。双阶段迭代交替训练，携手共进，最终实现双目标最优的结果。推理阶段，则将C&D LoRA合并至SD Unet中。

2.1 Temporal Consistency Stage

该阶段顾名思义，重点优化时序一致性上。包括了两个主要步骤：1）用CFR模块进行时序特征融合，2）用C-LoRA微调。

Step1：时序特征融合CFR

即使用一种特殊的注意力机制来改进当前的潜特征 $z_n^{LQ}$ 。

用SpyNet估计光流，用于对齐两帧的潜特征，前一帧warp至当前帧，即 $F_{wp}\left(z^{LQ}_{n-1}\right)$ 。
分别用1x1卷积做映射得到 $Q_n$ 、 $K_{n-1}$ 、 $V_{n-1}$ ，当前帧 $z_n^{LQ}$ 作为Q，warp后的前一帧 $F_{wp}\left(z^{LQ}_{n-1}\right)$ 作为K和V。
传统注意力会对所有位置计算相似度，但在视频中，很多区域是噪声或无关背景，容易引入干扰。
1. 对于当前帧的每一个空间位置 $p$ （即 $Q_{[p]}$ ），只计算它与前一帧中最相似的 K 个位置的注意力权重。避免干扰又减少计算量。
2. 为进一步过滤弱匹配，引入一个轻量级MLP预测可学习的阈值 $\tau_n[p]$ ，细节区域严格，平坦区域宽松，确保可信的匹配，才有助于融合。融合特征如下
  $\bar{z}_n^{LQ}[p] = z_n^{LQ}[p] + \sum_{q \in F_{\text{topk}}[p]} \phi \left( \frac{\langle Q_n[p], K_{n-1}[q] \rangle}{\sqrt{d}} - \tau_n[p] \right) \cdot V_{n-1}[q]$
  其中 $\phi(\cdot)$ 为非负门控函数（如ReLU）， $d$ 为通道维度。

小结：前后两帧对对齐，动态阈值找相似，找到相似做融合，细节增强更一致。

Step2：用C-LoRA微调

融合得到了时间一致性更强的潜特征 $\bar{z}_n^{LQ}$ ，将其送入Unet中做微调。这个过程D-LoRA保持冻结状态。可训练的部分为CFR模块和C-LoRA。用组合的一致性损失进行约束，其中包含了L2，LPIPS和光流损失，如下式。
$\mathcal{L}_{\text{cons}} = \lambda_{\text{pix}} \mathcal{L}_{\text{pix}} + \lambda_{\text{lpips}} \mathcal{L}_{\text{lpips}} + \lambda_{\text{opt}} \mathcal{L}_{\text{opt}} \text{;} \\ \mathcal{L}_{\text{opt}} = \left\| O_n^{HQ} - O_n^{\text{GT}} \right\|_1 = \left\| F(I_n^{HQ}, I_{n+1}^{HQ}) - F(I_n^{\text{GT}}, I_{n+1}^{\text{GT}}) \right\|_1 \text{.}$

光流损失就是评估模型生成的前后帧光流估计与GT前后帧光流估计的差异。

2.2 Detail Enhancement Stage

细节增强阶段侧重于恢复高频视觉细节。

这个阶段很直接，就是用D-LoRA微调，C-LoRA冻结，相邻的潜在特征 $z_{n-1}^{LQ}$ 和 $z_n^{LQ}$ 用CFR（已冻结）模块处理，有效应用学习到的对齐和融合，从而在不引入新变化的情况下保持了第一阶段学习到的时序一致性。

同时采用了差异化的损失约束，除了之前的三种损失，还新增了CSD（Classifier Score Distillation）损失，鼓励生成更丰富更精细的细节。
$\mathcal{L}_{\text{enh}} = \lambda_{\text{pix}} \mathcal{L}_{\text{pix}} + \lambda_{\text{lpips}} \mathcal{L}_{\text{lpips}} + \lambda_{\text{opt}} \mathcal{L}_{\text{opt}} + \lambda_{\text{csd}} \mathcal{L}_{\text{csd}}.$

2.3 训练注意事项

相信大家已经清楚双阶段过程，那么什么时候切换？作者表明，一旦模型在一致性阶段收敛，即可切换成细节增强阶段。补充材料中的算法伪代码中显示，预设了一个N值，超过该N值即实现切换。

同时，为了避免双阶段损失函数差异带来的不稳定性，采用了损失转移加权策略，逐步变化，确保阶段之间的平稳过渡，具体公式如下。
$\mathcal{L}(s) = \left(1 - \frac{s}{s_t}\right) \cdot \mathcal{L}_{\text{cons}} + \frac{s}{s_t} \cdot \mathcal{L}_{\text{enh}}, \quad s \in [0, s_t]$

三、实验论证

基础模型为SDv2.1。
训练数据为两部分：一致性阶段是REDS + Pexels视频（高动态），细节阶段是LSDIR（丰富纹理）。
数据退化为RealESRGAN pipeline。
测试集为UDM10，SPMCS（合成），RealVSR，VideoLQ（真实）。
评价指标为保真度（PSNR，SSIM），感知质量（LPIPS，DISTS），无参考质量（MUSIQ，CLIPIQA，MANIQA，DOVER），时间一致性（ $E^*_{\text{warp}}$ （帧间光流对齐误差））.