Multi-Stage Feature Fusion Network for Video Super-Resolution阅读笔记

原创

已于 2022-06-10 10:07:07 修改 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #人工智能

于 2022-05-17 16:53:48 首次发布

本文深入分析了一篇关于视频超分辨率的论文，提出了一种名为Multi-Stage Feature Fusion Network的新型端到端模型。该模型通过时间对齐网络(TBN)和调制特征融合网络(MFFN)解决现有方法中的一次性特征融合问题，以增强视觉特征并保持时间一致性。TBN包含特征提取、多尺度扩展变形(MDD)和注意力模块，而MFFN则通过多级残差融合块(MRFB)逐步融合特征。实验表明，这种方法在多种数据集上表现出色，尤其是在时间一致性和模型效率方面优于其他模型。

Multi-Stage Feature Fusion Network for Video Super-Resolution

用于视频超分辨率的多级特征融合网络

论文：Multi-Stage Feature Fusion Network for Video Super-Resolution | IEEE Journals & Magazine | IEEE Xplore

代码：

本篇笔记主要对整篇论文从头到尾进行阅读分析，本文内容有点多，主要是对不同部分的总结以及图例解释，如果只对模型原理部分有兴趣，可直接观看第四部分。

本文为了详细说明各图、公式在各组件中的情况，所以对原文图片、公式做了切割和拼接，保证该内容是在该组件中生效的。

目录：

（1）摘要

作者提出现有的VSR方法存在一个主要的问题，现有的特征融合是一段式的，也就是进行时间对齐之后，将其进行卷积融合输出作为目标特征数据，但是这种结果会与原始的参考LR帧有视觉偏差(这种偏差主要是因为未完全对齐与遮挡情况)，所有作者在本文中提出一种端到端的多阶特征融合网络，首先将目标帧与参考帧进行特征对齐之后，将其结果作为多阶融合网络的输入，与目标帧及逆行逐级融合，保证参考帧的信息可以在融合过程中都被引用，增强特征。

（2）引言

作者提出当前的VSR模型尽管通过DCN进行对齐之后进行特征融合，但是并未考虑到融合之后的特征与原始LR参考帧之间的视觉信息差异，而这种差异可能原词视频中的强烈运动导致的未完全对齐和遮挡模糊，这种情况会导致VSR的效果下降。所以为了解决上述问题，作者提出一种端到端的多阶特征融合网络，将特征的融合过程改为渐进式，原始参考LR帧在融合过程中的多个阶段都可以对目标帧的视觉特征信息进行干预，尽最大保留原有的视觉效果并融合出更细致的特征细节信息用于重建，如下图中本文方法的效果展示。

(本文作者的这种想法实际上与BasicVSR中的传播和聚合相似，双向和网格传播是为了将未来信息和过去信息进行提炼和结合，更好的根据视频的运动信息还原出细节信息，提高信息之间的交互，聚合则是根据对齐的特征进行级联。而本文作者通过对对齐后的特征与原始目标LR帧信息进行逐步融合，通过逐步融合特征信息，来获取最大的视觉特征保留效果和特征细节，实际上也是在这两方面进行优化)。

作者提出的多级特征融合对比的是一步融合，如下图。我们可以看出，目标帧与参考帧信息进行扭曲对齐之后作为输入，输入到卷积融合模块输出为目标特征信息。而本文中使用的多级特征融合，作者将对齐之后的特征信息作为输入，输入到MRFB(多级残差融合块)中，通过与原始的目标LR帧进行逐级融合之后，输出相应的目标特征信息。

（3）相关工作

这一部分主要介绍了，视频超分，条件网络以及可变形卷积的内容。条件网络主要是应用了Conditional Normalization(CN)到多阶融合的各个部分，为什么不用BN，在我前面的的blog中已经说明(超分辨率中为什么不适用BN_写Bug的小廉的博客-优快云博客)。

（4）本文方法介绍

本文提出的网络是多阶特征融合网络，可以细分为两个子网络，一个是时间对齐网络和调制特征融合网络，如下图所示，顶层是，将对齐之后的信息作为共享条件信息输入下方的融合网络中，进行逐级融合。

两个子网络的范式公式如下所示，公式(1)，代表着t帧的目标帧经过MSFFN网络还原出的高分辨率图像。公式(2)，则是对齐之后的特征。公式(3)则表示对齐之后的特征组合成为一个共享量，而这个共享量则是t-N~t+N的参考帧与目标帧对齐的结果。公式(4)则是将目标帧与共享变量进行逐级融合，得到最终的高分辨率帧。