刷新SOTA | 视频恢复的重中之重：时间对齐

WangsyUQ

已于 2022-06-06 22:23:08 修改

阅读量753

点赞数 1

分类专栏：投稿文章视频超分(VSR) 文章标签：音视频计算机视觉人工智能

于 2021-12-10 16:41:47 首次发布

本文链接：https://blog.youkuaiyun.com/Srhyme/article/details/121714337

版权

视频超分(VSR) 同时被 2 个专栏收录

54 篇文章

订阅专栏

投稿文章

41 篇文章

订阅专栏

本文介绍了港中文和思谋团队在视频修复领域的最新研究，提出了一种迭代对齐模块(IAM)和非参数重加权方法(ARW)。IAM通过迭代优化实现更精确的帧间对齐，减少了误差累积；ARW通过空间自适应计算帧的重要性，提高了多帧融合的效果。实验表明，这种方法在视频去模糊、去噪和超分辨率任务上刷新了多项SOTA记录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
作者单位：港中文、思谋
论文链接：https://arxiv.org/pdf/2111.15288
代码链接：https://github.com/redrock303/Revisiting-Temporal-Alignment-for-Video-Restoration.git
编者言：本文主要侧重对视频帧中时间对齐的研究，提出了一种迭代对齐的方式来精细视频帧之间的对齐，从而成功的刷新了众多视频low-level领域的成绩！代码也已开源！

看点

对于视频恢复任务来说长距离时间对齐是重要的且具有挑战性的。最近的一些工作将长时间对齐划分为渐进处理的子对齐。尽管此操作有助于对远距离通信进行建模，但由于传播机制，误差累积是不可避免的。本工作提出了一种迭代对齐模块(IAM)，该模块采用逐步细化的子对齐方案，产生了更精确的运动补偿。此外，本文还提出了一种非参数重加权方法(ARW)，以空间方式自适应地计算每个相邻帧的重要性以进行聚合，在多任务上实现了SOTA。

方法

Overview

框架如下图所示。在特征提取模块中，输入帧首先使用阶梯卷积进行降采样，用于视频去模糊/去噪，同时在SR的相同分辨率下进行处理。然后，我们利用建议的IAM将输入帧与中心帧对齐。为了简单起见，我们只考虑在一边对称地处理另一边的单边对齐。然后，设计了一个自适应重加权模块来融合对齐的特征。最后，通过将预测的残差添加到原始（用于视频去模糊/去噪）或上采样（用于视频SR）输入图像中来获取输出。
在这里插入图片描述

特征提取模块

如下图所示，首先利用两个步长为2的卷积来降低视频去模糊和去噪的特征分辨率以提高计算效率，在视频SR中则分辨率不变。然后利用另外两个步长为2的卷积来获得输入帧的金字塔表示，最后将金字塔特征用单个卷积进行融合。
在这里插入图片描述

时间对齐

如下图所示，现有的对齐方法大致可分为两类:（a）完全独立地进行帧到帧对齐（b）在循环中顺序执行对齐的渐进对齐。与上述不同，本文提出的算法基于先前的估计迭代地细化子对齐，如图（c）。
在这里插入图片描述
对于第一次对齐： $\mathcal{A}_{1}: a_{1}\left(\mathbf{F}_{1}, \mathbf{F}_{0}, t=1\right) \Rightarrow \hat{\mathbf{F}}_{1}^{0}, \mathbf{h}_{1}^{1}$ 其中 $\hat{\mathbf{F}}_{k}^{i-1}$ 表示 $\mathcal{A}_{k}$ 中子对齐 $a_{i}$ 的对齐结果。第二次对齐表示为： $\mathcal{A}_{2}:\left\{\begin{array}{l} a_{2}\left(\mathbf{F}_{2}, \mathbf{F}_{1}, t=1\right) \Rightarrow \hat{\mathbf{F}}_{2}^{1}, \mathbf{h}_{2}^{1} \\ a_{1}\left(\hat{\mathbf{F}}_{2}^{1}, \mathbf{F}_{0}, \mathbf{h}_{1}^{1}, t=2\right) \Rightarrow \hat{\mathbf{F}}_{2}^{0}, \mathbf{h}_{1}^{2} \end{array}\right.$ 对于 $\mathcal{A}_{2}$ 中的子对齐 $a_{1}$ ，将预先估计的运动场 $\mathbf{h}_{1}^{1}$ 作为初始并进行细化，以此类推，形成迭代优化。这样的好处有如下两点：

通过迭代优化，子对齐将更加精确。
子对齐不仅依赖于预对齐的特征，还依赖于预估计的运动场，使其更加可靠。

不难观察，对于2N帧相邻帧，上述方法需要N（N+1）次对齐。相比之下，独立和渐进式方案仅需要2N次。为此，本文设计了一种参数少得多的轻型子对齐单元，如下图。
在这里插入图片描述
以第i次子对齐为例，首先利用两次卷积与ReLU，从源特征和目标特征的串联中估计初始运动场 $\mathbf{h}_{i}^{c}$ 。之后， $\mathbf{h}_{i}^{k+1-i}$ 被预测为： $\mathbf{h}_{i}^{k+1-i}= \begin{cases}\mathbf{h}_{i}^{c}, & i=k \\ \theta\left(\mathbf{h}_{i}^{c}, \mathbf{h}_{i}^{k-i}\right), & \text { others }\end{cases}$ 其中，使用一个卷积和两个残差块（θ）来精细预测。最后，用可变形卷积从源特征自适应内容采样： $\hat{\mathbf{F}}_{k}^{i-1}=\operatorname{DConv}\left(\hat{\mathbf{F}}_{k}^{i}, \mathbf{F}_{i-1}, \mathbf{h}_{i}^{k+1-i}\right)$

自适应重加权

最近，注意机制成为聚合多帧信息的流行机制。相比之下，本文提出了一个非参数重加权模块从两个角度显式地计算对齐帧的空间自适应。该模块先计算对齐帧相对于参考帧的精度，然后测量对齐的相邻帧的一致性，如下图所示。
在这里插入图片描述
基于精度的重加权： 如（a）所示。对于参考帧 $\mathbf{F}_{0}$ ，位置（x，y）处的特征向量表示为 $\mathbf{v}_{0}$ 。找到对齐帧中对应的3×3补丁相同位置，计算余弦相似性（归一化内积）如下： $\mathbf{S}_{k}^{x, y}(\Delta x, \Delta y)=\frac{\hat{\mathbf{F}}_{k}^{0}(x+\Delta x, y+\Delta y)}{\left\|\hat{\mathbf{F}}_{k}^{0}(x+\Delta x, y+\Delta y)\right\|_{2}} \otimes \frac{\mathbf{v}_{0}}{\left\|\mathbf{v}_{0}\right\|_{2}}$ 其中， $\mathbf{S}_{k}^{x, y}$ 是位置（x，y）处的3×3相似性图，⊗表示内积。然后将Softmax函数应用于 $\mathbf{S}_{k}^{x, y}$ 的空间维度，产生像素权重 $\mathbf{W}_{k}^{x, y}$ ， $\mathbf{W}_{k}^{x, y}$ 用于融合3×3补丁上的特征向量，重新加权的结果如下所示： $\overline{\mathbf{F}}_{k}^{0}(x, y)=\sum_{\Delta x, \Delta y} \mathbf{W}_{k}^{x, y}(\Delta x, \Delta y) \odot \hat{\mathbf{F}}_{k}^{0}(x+\Delta x, y+\Delta y)$ 其中 $\odot$ 为哈达玛积。
基于一致性的重加权： 首先计算对齐的相邻帧的平均值 $\hat{\mathbf{F}}_{a v g}^{0}$ ，如上图（b）所示，一致性被计算为： $\mathbf{C}_{k}=\exp \left(\alpha \cdot\left\|\hat{\mathbf{F}}_{k}^{0}-\hat{\mathbf{F}}_{a v g}^{0}\right\|_{2}^{2}\right)$ $\alpha$ 的值为-1。最后将基于精度的重加权特征 ${\overline\mathbf{F}}_{k}^{0}$ 乘以一致性映射，得到精细后的结果 $\tilde{\mathbf{F}}_{k}^{0}$ 。