论文笔记之Understanding Deformable Alignment in Video Super-Resolution

最新推荐文章于 2023-03-24 16:03:38 发布

原创

最新推荐文章于 2023-03-24 16:03:38 发布 · 3.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #机器学习 #超分辨率重建 #神经网络

本文深入探讨了2021年AAAI会议中，作者通过统一数学表达式分析了DCN和flow-based对齐的相似性，提出offset-fidelity损失解决DCN训练问题，并验证了offset多样性对VSR性能的关键作用。

在这里插入图片描述

这篇文章是2021年的AAAI，和EDVR、BasicVSR、BasicVSR++是同一批作者。文章最重要的贡献在于①用一个统一的数学表达式去归纳flow-based对齐(如TSTN)和flow-free对齐(如TDCN)；②得出了两种对齐方式高度相似性；③推出了offset-fidelity作为loss来缓解DCN训练不稳定的问题，这也为后续使用DCN来做对齐的VSR方法解决了后顾之忧。此外，文章还提出了一些关于对齐方面的小知识点，并通过实验进行验证。总的来说，虽然这篇文章的提出的大部分内容大家之前就都明白，但是它的存在为后续的VSR研究提供了理论上的支持。

参考文档：
①HeatMap的理解与生成

Understanding Deformable Alignment in Video Super-Resolution

Abstract
1 Introduction
2 Related Work
3 Unifying Deformable and Flow-Based Alignments
4 Analysis
5 Convolution

Abstract

STN、DCN(或DCN-v2)的提出是为了适应图片的空间几何变换，即增加网络的空间不变性，但后来发现其可以适用于VSR的对齐中，通过使用flow-based(诸如STN方法)或flow-free(诸如DCN方法)来对支持帧做空间warp，从而实现它与参考帧的对齐。
这篇文章着重研究了flow-free类对齐和flow-based类对齐之间的关系：①首先当DCN只学习1个offset的时候，它和flow-based对齐是高度相似的；②其次作者将DCN分解成一个spatial warping和1个3D卷积(或2D卷积)，从而将DCN和flow-based对齐归纳成1个表达式，关键的区别只是在offset的个数上，flow-based相当于只有1个offset。这种新型的表达式既可以表示flow-based对齐，也可以表示DCN的对齐，此外，它的offset不像DCN那样限制死了——卷积核大小的平方，而是可以为任意数值 $N$ ，如当 $N = 1$ 表示flow-based对齐。
一定量的offset diversity(即offset的个数)可以增加对齐的质量，从而对后续SR重建产生不错的表现力。
作者推出了一种offset-fidelity损失函数来引导光流(flow)辅助的offset学习，并通过实验证明这种loss可以避免offset的溢出以及缓解DCN训练不稳定问题。
作者对DCN的分解为flow-based对齐提供了offset diversity，从而加强了flow-based对齐本身的探索能力，提高了对齐和重建的性能。

Note：

第2点的spatial warping和STN、DCN的warp是不一样的，前者只是纯粹将DCN的卷积对象进行变形，为DCN类对齐和flow-based对齐提供统一的表达式；而后者指代的是重采样过程，或者说是一种运动补偿(对齐模块的最后阶段)。
DCN的offset可以看成是flow-like，offset是一种运动信号，所以其中的每一个运动信号都可以看成是一种光流。

1 Introduction

在VSR中，对齐是一个必要的步骤，通过对齐可以建立其时间相关性(连续性)以及空间相关性来帮助后续融合SR网络获取更多细节。对齐主要分两类：flow-based，诸如VESPCN、Robust-LTD等；flow-free，诸如TDAN、EDVR等，它们隐式地完成运动补偿。之所以是隐式，是因为并不是像flow-based那样通过诸如SPyNet或者PWC-Net等那样获取光流，然后在每个位置根据光流(运动矢量)进行运动补偿(估计)或者说是warp，而是通过学习flow-like的offset，然后在基于offset的新位置出进行卷积提取特征进行warp，这一套流程和flow-based的目的是一样的都是进行空间变换，但是其步骤并不是严格的运动估计+运动补偿的过程。

$\colorbox{yellow}{这篇文章的核心是两个问题}$ ：

显式对齐(flow-based)和隐式对齐(flow-free或者说DCN-based)之间的联系是什么？
我们之前都知道，DCN这种对齐方式要比flow-based有更好的对齐效果，从而使得最终SR重建效果更好，那么这种提升来自于哪里呢？其实在TDAN这篇文章中，作者有提到是因为DCN的探索能力更强，它每一个位置的warp都基于1个卷积核大小的特征信息，而flow-based每一个位置的warp只取决于1个位置的光流，容错率较低。作者在这篇文章中会通过一种共同表示两种对齐方式的统一式子来更深一步研究这种探索力机制。

$Q_1$ ：作者通过将DCN分解成1个spatial warping和1个3D卷积的过程，这种方式会将2种对齐方式用统一的表达式体现出来，然后可以直接看出他们的差异仅仅只是在offset的个数上(在这里我们将flow看成是一种offset)。因此flow-based方法在每个位置上只需要学习一个offset，如下图所示( $X 、 Y$ 方向都统称为1个offset)：
在这里插入图片描述这和我们flow-based实际在对齐过程中的学习也是一致的：左边的光流 $\Delta$ 我们可以通过简单的CNN堆叠(VESPCN)、SPyNet(BasicVSR)或者是PWC-Net预测得到；而flow-free对齐通过CNN学习多个offset，在DCN中，每次offset的个数是卷积核大小的平方数。从这里就可以直观的看出为何说DCN的探索能力更强，因为其每次的warp都是基于许多个运动信号(offset)综合产生的，而flow-based只取决于1个offset。
$Q_2$ ：在第一个问题中，我们通过DCN的分解知道了2种对齐的关键差别在于offset的个数，因此直观来看offset的个数就是导致DCN性能更佳的原因，作者在后面第4节也证明了这一点。

上述2个问题都离不开offset diversity这个关键词，作者通过研究表明这个offset发现了2个有趣的点：

DCN中学得的offset和光流(运动矢量)有着类似的表现形式，这表明flow-free对齐和flow-based对齐有着很高的相似度。
多样的offset比单一的offset能产生更好的SR重建性能。因为多样的offset可以互相补充特征信息来获取更强的信息探索能力，这种强探索能力可以解决遮挡问题和大运动产生的warp误差问题。这里需要分别解释下：①对于遮挡问题，如下图所示：在对齐过程中，支持帧没有参考帧中关于手挡住树枝的信息，所以对齐中会出现问题，DCN的做法是在一个卷积核范围内，搜刮多方信息(多个offset)来输出最终warp的像素值；而flow-based其探索能力差，只取决于1个光流信号，所以通过光流决定的最终warp位置一般不会有被遮挡物体的特征信息，大多都是和树枝无相关的物体，比如说是手指，那么这样的warp最终会导致对齐的支持帧这一部分出现重影或其他artifacts。②对于大运动下的误差问题，个人认为这是一个方差问题(衡量稳定性的指标)，DCN最终warp的输出是多个像素采样(卷积)的综合结果，而flow-based每个位置的warp只取决于1个光流，故其在大运动光流下的变化就会比较不稳定，这就有点类似于随机梯度下降(单样本)和小批量随机梯度下降一样。而这种差距在小运动或平缓运动下就体现不出来，因为光流本身就小，很难体现出来变化的不稳定性。

为了验证上述两个点，作者做了相关实验，实验结果如下：
在这里插入图片描述

5帧视频可以看成是物体不动，摄像机沿着右下方移动；图1是在flow-based对齐方法中学习到的光流，比如VESPCN这种；图2和图4是DCN中同一个offset窗口内(大小为卷积核大小的平方)不同的offset；图3是纯flow-based，通过这篇文章PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume提出的PWCNet来计算光流；图5和图6分别是flow-based和flow-free最终的对齐feature map。
从实验中我们可以得出结论：

无论是DCN还是单个offset版本的flow-based对齐(本文提出的)，单个offset都和光流高度相似，只是存在很小的差别。
图2和图4可知：DCN可以学习到多种不同的offset，图2学习到了相机的右向运动(汽车相对向左，所以呈现黄色)；图4学习到了相机下向运动(汽车相对向上，所以呈现偏红色)，所以DCN探索捕捉到了更丰富全面的运动信息，而图1中flow-based只能捕捉到单一的运动。这一点在最终的对齐中得到了验证，相比基于flow-based的图5，基于DCN的图6获取到了更多的细节。
DCN可以捕捉更复杂的运动，而flow-based只能捕捉单一的运动。
由于DCN具有较强的探索能力，所以其对齐不容易出现artifacts；而flow-based对齐方法由于高度依赖于运动估计的准确性，每个位置的warp仅仅取决于1个光流信号，所以容错率低，不正确的光流就会很容易出现artifacts，如图5的轮胎所示。

Note：

此外需要指出的一点是光流图的颜色代表着物体运动的方向，光流图颜色的深浅代表着运动的速率。

$\colorbox{hotpink}{Flow-free vs Flow-based}$
①基于DCN的对齐方式以强探索能力著称，可以有效应对遮挡、大运动问题(注意是缓解，而不是解决，想通过DCN解决大运动问题需要级联多个DCN且基于不同的分辨率做可变形卷积，即EDVR的做法)。
②先不讨论特征校正的问题，Flow-based对齐每个位置的warp只取决于1个运动矢量，因此其高度依赖于运动估计的准确性，容错率较低，比flow-free更容易出现artifacts，虽然flow-free也会出现artifacts，但是其基于其较丰富的offset信息使得artifacts很少出现。
③此外flow-based一般都是two-stage，速度相对较慢。

$\colorbox{dodgerblue}{Offset-fidelity}$
基于上述对比，我们在对齐上最佳的选择就是DCN这种flow-free做法，但是DCN的一大缺陷在于训练不稳定以及offset容易溢出问题，为了解决这个麻烦，作者提出了以offset-fidelity为损失函数来实现flow-based引导DCN中offset的学习，实验证明这种策略确实稳定了offset的训练。

通过DCN的分解成本文的新型表达式之后，我们明白了2种对齐方式的差异在offset的个数上，因此对于基于flow-based方法的对齐来说，增加offset的个数是提升对齐性能的关键；此外本文提出的新型表达式并不像DCN那样限定offset diversity(卷积核大小的平方)，而是可以任意offset个数，因此这种分解之后的新表达拥有更大的灵活性。

小结一下本文的贡献：

探究了flow-free和flow-based对齐之间的关系——两者可以使用同一个表达式来归纳，只不过offset个数不同。
作者研究了offset diversity的好处，表明offset的个数是提升对齐质量和后续SR重建的关键。
在保持DCN中offset多样性的同时，使用offset-fidelity损失函数来稳定DCN的训练。
通过分解DCN形成新的表达式为flow-based对齐方法增加表现力提供了方案——增加offset的个数。

2 Related Work

略

3 Unifying Deformable and Flow-Based Alignments

3.1 Deformable Convolution Revisited

在这里插入图片描述

首先简要介绍下DCN，假设可变形卷积核为 $3\times 3$ ， $p,p_k,\Delta p_k,\Delta m_k$ 分别为输出点坐标；卷积核内第 $k$ 个位置， $p_k\in \{(-1,-1),(-1,0),\cdots,(1,1)\}$ ；offset；modulation mask。此外 $n$ 表示卷积核的大小，此处 $n = 3$ 。
令 $x, y$ 表示输入和输出，则DCN-v2的表达式为：
$\sum^{n^2}_{k=1} w(p_k) \cdot x(p+p_k+\Delta p_k) \cdot \Delta m_k.\tag{1}$

最低0.47元/天解锁文章