一个不限制插值个数和上采样倍数的视频增强方法

WangsyUQ

已于 2022-06-06 22:27:16 修改

阅读量469

点赞数

分类专栏：投稿文章视频超分(VSR) 文章标签：计算机视觉神经网络

于 2021-03-21 09:48:13 首次发布

本文链接：https://blog.youkuaiyun.com/Srhyme/article/details/114887491

版权

视频超分(VSR) 同时被 2 个专栏收录

54 篇文章

订阅专栏

投稿文章

41 篇文章

订阅专栏

在这里插入图片描述
作者单位：麦克马斯特大学
论文：https://arxiv.org/pdf/2102.13011.pdf

看点

近年来，大量的视频增强研究致力于同时提高时间帧速率和空间分辨率，这些方法要么不能揭示时空信息之间的内在联系，要么在最终的时空分辨率的选择上缺乏灵活性。本文主要贡献如下：

提出了一种无约束的时空视频超分网络（USTVSRNet），该网络综合了SOTA单阶段和两阶段方法的优点，同时避免了它们的缺点。
介绍了几种新的机制，包括整合图像级和特征级信息以提高中间帧的质量、推广pixelshuffle layer以增加上采样因子的自由度、生成规模感知特征以使网络更具适应性。

USTVSRNet能够在单个模型上按任意因子进行上采样。实验结果表明，该方法优于两阶段的SOTA方法，且计算量显著降低。
在这里插入图片描述

方法

overview

USTVSRNet的总体结构如下图所示，它主要由4个子网络组成：帧内插网络（FINet）、特征提取网络、增强网络（EnhanceNet）和重构网络。
在这里插入图片描述首先，由FINet基于相邻帧（ $I_0^L$ 和 $I_1^L$ ）和双向光流（ $f_{t→0}$ 和 $f_{t→1}$ ）构造LR中间帧 $\hat I_t^L$ 。然后通过特征提取器分别从 $I_0^L$ 、 $\hat I_t^L$ 和 $I_1^L$ 生成特征 $F^L_0$ 、 $F^L_t$ 和 $F^L_1$ 。接下来，通过增强网络将特征 $F^L_t$ 增强到 $E^L_t$ ，最后， $E^L_t$ 馈入重建网络产生超分辨率帧 $\hat I_t^H$ 。

帧内插网络和特征提取器

首先，利用轻型光流估计网络PWCNet估计双向流 $f_{0→1}$ 和 $f_{1→0}$ ，然后它们传递到反向流动层，以预测反向流 $f_{t→1}$ 和 $f_{t→0}$ 。具体的说：
在这里插入图片描述

式中， $f_{0→t}=t*f_{0→1}$ ，FR表示反向流操作； $f_{t→1}$ 可按类似方式计算，然后合成为：
在这里插入图片描述
其中B是由CNN生成的混合掩模，g(·)表示翘曲函数。特征提取器由若干个卷积层和残差块组成。

增强网络

如下图所示，增强网络的目标有三：1）利用源帧特征 $F^L_0$ 和 $F^L_1$ 以及双向光流 $f_{t→1}$ 和 $f_{t→0}$ 去预测中间帧特征 ${F '}_t^{L}$ ；2）在特征级对生成的参考帧进行细化以减轻误差积累问题，因为第一阶段得到的预测 $\hat I_t^L$ 往往会有很多伪影；3）在 $f_{t→1}$ 和 $f_{t→0}$ 的指导下，将源帧融合到中间帧，以便更好地重建。
在这里插入图片描述
其中M表示通过 $Net_M$ 从 $f_{t→1}$ 和 $f_{t→0}$ 提取的运动特征。

重建网络

重建网络是以残差密集网络为主干设计的。本文提出GPL来替换SPL，以使得用任意比例因子s向上采样低分辨率特征成为可能。此外，本文使用提出的SARDB替换每K个RDB中的一个，它能够生成比例自适应特征并对整体性能作出积极贡献。
GPL：提出GPL来解决SPL缺乏灵活性的问题。SPL和GPL的目标是将大小为 $C_{in}×H×W$ 的输入特征转换成大小为 $C_{out}×sH×sW$ 的输出特征，但是在SPL中s不允许为分数，且 $C_{inter}$ 必须等于 $s^2C_{out}$ ，但在GPL中可以是任意正整数。对于SPL，特征映射如下：
在这里插入图片描述
对于GPL，特征映射为：

其中， $p_c$ 是预先确定的通道位置， $\Delta p_c$ 表示由一个小型的全连接网络预测的自适应偏移量，该网络以 $(i^{'} - [i^{'}], j^{'} - [j^{'}], 1 / s)$ 作为输入。每个3D输出位置都与一个 $\Delta p_c$ 相关联，从而总共生成 $sH·sW·C_{out}$ 个偏移量。在 $p_c+\Delta p_c$ 不是整数的情况下，可以使用线性插值函数来计算采样值 $T_{[i'],[j'],p_c+\Delta p_c}$ ：
在这里插入图片描述
通过这样的设计，中间特征映射上的采样位置（ $[i'],[j'],p_c+\Delta p_c$ ）能够沿通道方向移动，从而对所需的特征进行采样,下图为例：

提出的GPL不仅实现了特征映射的无约束上采样，而且能够自由指定中间特征映射的通道维数；如果令 $C_{inter}=s^2C_{out}$ ， $p_c=C_{out}·r·mod(i,s)+C_{out}·r·mod(j,s)+c$ ， $\Delta p_c=0$ ，GPL则退化为SPL。综上可以得出本文提出的GPL是SPL的一个推广版本，具有更多的自由度，可以进行有益的探索。在本文的实现中， $p_c=c·\frac {C_{inter}}{C_{out}}+\frac{C_{inter}/C_{out}−1}{2}$ ， $\Delta p_c$ 初始化为0，并设置全连接层的学习速率为与全局学习速率相同。
尺度注意剩余稠密块：Learning for scale-arbitrary…一文中提出SR网络生成的特征可分为尺度无关特征和尺度相关特征，后者应适应不同的尺度。然而尺度感知模块仅仅建立在空间注意机制上，没有使用通道注意。基于这一观察，本文提出的SARDB更彻底地利用可用的自由度，如下图所示：
在这里插入图片描述
LFF输出的特征F被馈入到几个卷积层中，分别生成空间注意图 $M_s$ 和通道注意图 $M_c$ 。然后使用尺度感知卷积将特征F转换为尺度相关特征 $F_d$ 。最后，将上、下两个分支的结果进行融合，得到尺度自适应特征。

无约束STVSR实验

本文探讨了在不同目标时间t和上采样倍数s下的性能，设置t在0到1之间变化，步长为0.125，s在1到4之间变化，步长为0.5。在实现过程中，分别设置K=4， $C_{inter}=5C_{in}=5C_{out}=5×64$ 。

损失函数

使用 $L_1$ 损失和感知损失来训练网络。对于 $L_1$ 损失，采用Charbonnier函数来优化损失函数并设置 $\in= 10^{−6}$ 。感知损失通常利用从预先训练的网络中提取的多尺度特征图来量化差异。本文采用VGG-16作为预训练网络，并使用前三个阶段中每个阶段最后一层的特征图来测量差异（即Conv1_ 2、Conv2_2和Conv3_3），公式如下：
在这里插入图片描述
其中 $Φ_i(I^H_t),i=1,2,3$ 是上述三个特征映射对应 $I^H_t$ ， $Φ_i(\hat I^H_t)$ 对应于 $\hat I^H_t$ 。总损失如下：

λ为平衡因子，实验得出 λ=0.04时效果最佳。

数据集

Adobe-240数据集由133个手持录制视频组成，每个视频的帧速率为240fps，空间分辨率为720×1280。从这个集合中，随机选取103个视频来构建训练数据集。该集合是通过连续地将每9个连续帧分组，并将它们调整为360×640以形成训练序列 $I^H_0,I^H_{0.125},...,I^H_1$ 。由此，总共获得了10895个序列。LR帧是从HR帧通过双三次下采样生成的。从LR帧中随机裁剪大小为56×56的图像块进行训练。水平/垂直翻转以及时间顺序反转用于数据扩充。