一个不限制插值个数和上采样倍数的视频增强方法

在这里插入图片描述
作者单位:麦克马斯特大学
论文:https://arxiv.org/pdf/2102.13011.pdf

看点

近年来,大量的视频增强研究致力于同时提高时间帧速率和空间分辨率,这些方法要么不能揭示时空信息之间的内在联系,要么在最终的时空分辨率的选择上缺乏灵活性。本文主要贡献如下:

  1. 提出了一种无约束的时空视频超分网络(USTVSRNet),该网络综合了SOTA单阶段和两阶段方法的优点,同时避免了它们的缺点。
  2. 介绍了几种新的机制,包括整合图像级和特征级信息以提高中间帧的质量、推广pixelshuffle layer以增加上采样因子的自由度、生成规模感知特征以使网络更具适应性。

USTVSRNet能够在单个模型上按任意因子进行上采样。实验结果表明,该方法优于两阶段的SOTA方法,且计算量显著降低。
在这里插入图片描述

方法

overview

USTVSRNet的总体结构如下图所示,它主要由4个子网络组成:帧内插网络(FINet)、特征提取网络、增强网络(EnhanceNet)和重构网络。
在这里插入图片描述首先,由FINet基于相邻帧( I 0 L I_0^L I0L I 1 L I_1^L I1L)和双向光流( f t → 0 f_{t→0} ft0 f t → 1 f_{t→1} ft1)构造LR中间帧 I ^ t L \hat I_t^L I^tL。然后通过特征提取器分别从 I 0 L I_0^L I0L I ^ t L \hat I_t^L I^tL I 1 L I_1^L I1L生成特征 F 0 L F^L_0 F0L F t L F^L_t FtL F 1 L F^L_1 F1L。接下来,通过增强网络将特征 F t L F^L_t FtL增强到 E t L E^L_t EtL,最后, E t L E^L_t EtL馈入重建网络产生超分辨率帧 I ^ t H \hat I_t^H I^tH

帧内插网络和特征提取器

首先,利用轻型光流估计网络PWCNet估计双向流 f 0 → 1 f_{0→1} f01 f 1 → 0 f_{1→0} f10,然后它们传递到反向流动层,以预测反向流 f t → 1 f_{t→1} ft1 f t → 0 f_{t→0} ft0。具体的说:
在这里插入图片描述

式中, f 0 → t = t ∗ f 0 → 1 f_{0→t}=t*f_{0→1} f0t=tf01,FR表示反向流操作; f t → 1 f_{t→1} ft1可按类似方式计算,然后合成为:
在这里插入图片描述
其中B是由CNN生成的混合掩模,g(·)表示翘曲函数。特征提取器由若干个卷积层和残差块组成。

增强网络

如下图所示,增强网络的目标有三:1)利用源帧特征 F 0 L F^L_0 F0L F 1 L F^L_1 F1L以及双向光流 f t → 1 f_{t→1} ft1 f t → 0 f_{t→0} ft0去预测中间帧特征 F ′ t L {F '}_t^{L} FtL;2) 在特征级对生成的参考帧进行细化以减轻误差积累问题,因为第一阶段得到的预测 I ^ t L \hat I_t^L I^tL往往会有很多伪影;3)在 f t → 1 f_{t→1} ft1 f t → 0 f_{t→0} ft0的指导下,将源帧融合到中间帧,以便更好地重建。
在这里插入图片描述
其中M表示通过 N e t M Net_M NetM f t → 1 f_{t→1} ft1 f t → 0 f_{t→0} ft0提取的运动特征。

重建网络

重建网络是以残差密集网络为主干设计的。本文提出GPL来替换SPL,以使得用任意比例因子s向上采样低分辨率特征成为可能。此外,本文使用提出的SARDB替换每K个RDB中的一个,它能够生成比例自适应特征并对整体性能作出积极贡献。
GPL:提出GPL来解决SPL缺乏灵活性的问题。SPL和GPL的目标是将大小为 C i n × H × W C_{in}×H×W Cin×H×W的输入特征转换成大小为 C o u t × s H × s W C_{out}×sH×sW Cout×sH×sW的输出特征,但是在SPL中s不允许为分数,且 C i n t e r C_{inter} Cinter必须等于 s 2 C o u t s^2C_{out} s2Cout,但在GPL中可以是任意正整数。对于SPL,特征映射如下:
在这里插入图片描述
对于GPL,特征映射为:
在这里插入图片描述
其中, p c p_c pc是预先确定的通道位置, Δ p c \Delta p_c Δpc表示由一个小型的全连接网络预测的自适应偏移量,该网络以 ( i ′ − [ i ′ ] , j ′ − [ j ′ ] , 1 / s ) (i'−[i'],j'−[j'],1/s) (i[i],j[j],1/s)作为输入。每个3D输出位置都与一个 Δ p c \Delta p_c Δpc相关联,从而总共生成 s H ⋅ s W ⋅ C o u t sH·sW·C_{out} sHsWCout个偏移量。在 p c + Δ p c p_c+\Delta p_c pc+Δpc不是整数的情况下,可以使用线性插值函数来计算采样值 T [ i ′ ] , [ j ′ ] , p c + Δ p c T_{[i'],[j'],p_c+\Delta p_c} T[i],[j],pc+Δpc
在这里插入图片描述
通过这样的设计,中间特征映射上的采样位置( [ i ′ ] , [ j ′ ] , p c + Δ p c [i'],[j'],p_c+\Delta p_c [i],[j],pc+Δpc)能够沿通道方向移动,从而对所需的特征进行采样,下图为例:
在这里插入图片描述
提出的GPL不仅实现了特征映射的无约束上采样,而且能够自由指定中间特征映射的通道维数;如果令 C i n t e r = s 2 C o u t C_{inter}=s^2C_{out} Cinter=s2Cout p c = C o u t ⋅ r ⋅ m o d ( i , s ) + C o u t ⋅ r ⋅ m o d ( j , s ) + c p_c=C_{out}·r·mod(i,s)+C_{out}·r·mod(j,s)+c pc=Coutrmod(i,s)+Coutrmod(j,s)+c Δ p c = 0 \Delta p_c=0 Δpc=0,GPL则退化为SPL。综上可以得出本文提出的GPL是SPL的一个推广版本,具有更多的自由度,可以进行有益的探索。在本文的实现中, p c = c ⋅ C i n t e r C o u t + C i n t e r / C o u t − 1 2 p_c=c·\frac {C_{inter}}{C_{out}}+\frac{C_{inter}/C_{out}−1}{2} pc=cCoutCinter+2Cinter/Cout1 Δ p c \Delta p_c Δpc初始化为0,并设置全连接层的学习速率为与全局学习速率相同。
尺度注意剩余稠密块Learning for scale-arbitrary…一文中提出SR网络生成的特征可分为尺度无关特征和尺度相关特征,后者应适应不同的尺度。然而尺度感知模块仅仅建立在空间注意机制上,没有使用通道注意。基于这一观察,本文提出的SARDB更彻底地利用可用的自由度,如下图所示:
在这里插入图片描述
LFF输出的特征F被馈入到几个卷积层中,分别生成空间注意图 M s M_s Ms和通道注意图 M c M_c Mc。然后使用尺度感知卷积将特征F转换为尺度相关特征 F d F_d Fd。最后,将上、下两个分支的结果进行融合,得到尺度自适应特征。

无约束STVSR实验

本文探讨了在不同目标时间t和上采样倍数s下的性能,设置t在0到1之间变化,步长为0.125,s在1到4之间变化,步长为0.5。在实现过程中,分别设置K=4, C i n t e r = 5 C i n = 5 C o u t = 5 × 64 C_{inter}=5C_{in}=5C_{out}=5×64 Cinter=5Cin=5Cout=5×64

损失函数

使用 L 1 L_1 L1损失和感知损失来训练网络。对于 L 1 L_1 L1损失,采用Charbonnier函数来优化损失函数并设置 ∈ = 1 0 − 6 \in= 10^{−6} =106。感知损失通常利用从预先训练的网络中提取的多尺度特征图来量化差异。本文采用VGG-16作为预训练网络,并使用前三个阶段中每个阶段最后一层的特征图来测量差异(即Conv1_ 2、Conv2_2和Conv3_3),公式如下:
在这里插入图片描述
其中 Φ i ( I t H ) , i = 1 , 2 , 3 Φ_i(I^H_t),i=1,2,3 Φi(ItH),i=1,2,3是上述三个特征映射对应 I t H I^H_t ItH Φ i ( I ^ t H ) Φ_i(\hat I^H_t) Φi(I^tH)对应于 I ^ t H \hat I^H_t I^tH。总损失如下:
在这里插入图片描述
λ为平衡因子,实验得出 λ=0.04时效果最佳。

数据集

Adobe-240数据集由133个手持录制视频组成,每个视频的帧速率为240fps,空间分辨率为720×1280。从这个集合中,随机选取103个视频来构建训练数据集。该集合是通过连续地将每9个连续帧分组,并将它们调整为360×640以形成训练序列 I 0 H , I 0.125 H , . . . , I 1 H I^H_0,I^H_{0.125},...,I^H_1 I0H,I0.125H,...,I1H。由此,总共获得了10895个序列。LR帧是从HR帧通过双三次下采样生成的。从LR帧中随机裁剪大小为56×56的图像块进行训练。水平/垂直翻转以及时间顺序反转用于数据扩充。

训练策略

在训练阶段,随机选择t和s构建每个训练批。单个批次内的图像块共享相同的t和s。采用Adam优化器,批次大小为18,其中 β 1 β_1 β1 β 2 β_2 β2分别设置为默认值0.9和0.999。总共训练30个epochs,初始学习率设置为 1 0 − 4 10^{-4} 104,第20个epoch时学习率减少了10倍。

量化评估

下图为不同s和t值时的PSNR量化图,红线为STVSR。
在这里插入图片描述
下图为模型大小和运行时间方面的方法比较。
在这里插入图片描述

消融实验

有无FINet或者EnhanceNet。 在这里插入图片描述
在不同的尺度上对比SPL和GPL。在这里插入图片描述
强制 Δ p c = 0 \Delta p_c=0 Δpc=0,命名为FG-RDN,对于通道注意力的消融实验如下。
在这里插入图片描述

固定时空实验

在这个部分中,t只能在{0,0.5,1}之间变化,s被设置为4,这意味着网络只能对视频分别进行×2和×4倍的时间和空间分辨率的上采样。采用Vimeo90K作为数据集,其他设置与上节相同,量化评估如下。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值