出自ECCV2020
文章思路
这篇文章的出发点是:帧间和帧内中存在很多相似的内容,如何有效的利用这些内容上的相似性去超分目标帧。这种相似性如下图所示:
基于此,作者提出了一个temporal multi-correspondence aggregation module(TM-CAM)以利用帧间内容上的相似性, cross-scale
nonlocal-correspondence aggregation module(CN-CAM)以利用帧内内容上的相似行。
整个算法的框架如下图所示:
整个算法由三部分组成,分别是TM-CAM,CN-CAM和重构模块组成。
TM-CAM
结构如下
这个模块可以同时处理大运动和小运动,实现帧间对齐目的,并且作者说小运动对齐的准确性(在亚像素级别)是非常重要的,因为他是引入细节的源头。
以上图为例,这模块首先对输入帧的特征分别执行下采样操作,然后从分辨率最低的一级开始,逐级往上开始融合,直到分辨率最大的一级为止。通过这种方式达到同时捕获大运动和小运动的目的,从而实现更加准确的对齐操作。其中AU单元结构是实现这个功能的关键,结构如下:
它的思路是:
1)在目标帧中,对于每一个位置,以它为中心,选择一个领域大小作为patch,然后在近邻帧中,以它为中心,在指定的范围查找与目标帧中对应patch最为相似的K个patch。
2)之后将这K个最相似的patch按通道拼接,通过一组卷积(即上图中的Aggr)进行融合,得到一个中间patch
3)为中间patch中各个位置分配权重,这里不是相同的权重,而是通过学些得到。具体地,近邻帧与目标帧特征拼接后送入一个卷积层,它的输出是一组权重,并且是针对每一个像素而言的,因此它的输出大小是 H × W × P a t c h H{\times}W{\times}Patch H×W×Patch
4)最后生成的权重与中间patch相乘得到对齐后的近邻帧。
注:
a、这里Patch的大小设为了 3 × 3 3\times3