视频超分辨率论文笔记：Recurrent Back-Projection Network for Video Super-Resolution

最新推荐文章于 2024-09-15 07:13:16 发布

Nick-Hwong

最新推荐文章于 2024-09-15 07:13:16 发布

阅读量3.1k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：计算机视觉

本文链接：https://blog.youkuaiyun.com/nickkissbaby_/article/details/90518831

计算机视觉专栏收录该内容

6 篇文章

订阅专栏

本文介绍了CVPR2019的Recurrent Back-Projection Network（RBPN）用于视频超分辨率。先总结主流Deep VSR做法，包括Temporal Concatenation、Temporal Aggregation、RNNs等。RBPN基于当前帧和邻居帧生成单帧SR图像，与DBPN思想相似，核心是残差学习。实验采用L1 Loss，分析多帧重建效果，不过模型运行较慢。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Recurrent Back-Projection Network for Video Super-Resolution - CVPR2019

paper：https://arxiv.org/pdf/1801.04590v4.pdf
code：https://github.com/alterzero/RBPN-PyTorch

1. Related Work

在这里插入图片描述

与DBPN论文一样，都是先总结并分类当前主流的SR做法。
主流的Deep VSR（video super-resolution）分为以下四种：
1. Temporal Concatenation：送入网络前将frames直接concat起来
2. Temporal Aggregation：将不同数量的帧（有些分路包含更多的邻居frame）丢进网络分路，最后输出前concat起来
3. RNNs：frames迭代式地进入RNN，最后输出当前这一帧的输出
4. 本文提出的RBPN

2. Method

首先RBPN是根据当前帧以及多个邻居帧生成当前帧的SR图像（multi frame->single frame），并不是multi frame -> multi frame
RBPN与本文的兄弟paper图像超分辨率网络DBPN思想比较相似，核心都是残差学习。DBPN是根据浅层的特征来学习残差，RBPN是根据邻居帧以及两者的optical flow来学习残差

2.1 Network Architecture

在这里插入图片描述

与DBPN类似，RBPN同样划分为三个stages：
1. Initial Feature Extraction：对当前帧采用卷积层 $I_t$ 进行特征提取，得到LR特征 $L_t$ 。并concat当前帧 $I_t$ 、邻居帧 $I_{t-i}$ 、两者之间的optical flow图 $F_{t-i}$ ，然后对concat起来的输入使用卷积层进行特征提取，得到Multi-frame特征 $M_{t-i}$ 。其中 $i = {1, 2, ... , n}$ 。 $n$ 是一个超参数。上图中最后一个Projection Module的输入 $L_{t-n-1}$ 应该写错了，应该是 $L_{t-n+1}$ ，是t-n帧的后一帧t-n+1帧对应的Projection Module的输出 $L_{t-n+1}$ 。
2. Multiple Projections
  
  Multiple Projections 是一个Encoder-Decoder结构的Module。Encoder负责上采样，Decoder负责下采样。
  1. Encoder：输入是 $L_{t-n+1}$ （图应该画错了）。 $L_{t-n+1}$ 是上一个Projection Module的输出，结合了t-n+1 ~ t-1 帧以及他们与当前帧的optical flow，产生的LR特征图。通过对 $L_{t-n+1}$ 使用SISR网络（single image super-resolution）产生HR特征原型 $H_{t-n+1}^t$ ，然后使用Multi-Frame特征 $M_{t-n}$ 产生multi-frame的HR特征 $H^m_{t-n}$ ，两者相减得到残差，残差经过Residual Block得到学习后的残差 $e_{t-n}$ ，与LR特征原型 $L_{t-n+1}$ 相加，得出Encoder的输出HR特征 $H_{t-n}$
  2. 为了利用更前一帧t-n-1与当前帧的Multi-Frame特征（LR的特征），需要将Encoder的输出HR特征 $H_{t-n}$ 下采样得到LR特征 $L_{t-n}$ 。这里使用了一个Residual Block以及下采样模块（我看得源码采用了max-pooling进行下采样）
  3. Resconstruction：把Projection Module中Encoder每次迭代中输出的HR特征全部concat起来，经过卷积层得出最终的SR图像
网络图中的Projection Module实际上只有一个，循环利用。每次向同一个Projection Module输入LR特征以及Multi-Frame的特征