MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution阅读

最新推荐文章于 2022-08-26 17:26:55 发布

AI未来

最新推荐文章于 2022-08-26 17:26:55 发布

阅读量774

点赞数 2

分类专栏：超分辨文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/qq_33590958/article/details/110148349

版权

在这里插入图片描述
出自ECCV2020

文章思路

这篇文章的出发点是：帧间和帧内中存在很多相似的内容，如何有效的利用这些内容上的相似性去超分目标帧。这种相似性如下图所示：
在这里插入图片描述
基于此，作者提出了一个temporal multi-correspondence aggregation module（TM-CAM）以利用帧间内容上的相似性， cross-scale
nonlocal-correspondence aggregation module（CN-CAM）以利用帧内内容上的相似行。
整个算法的框架如下图所示：
在这里插入图片描述
整个算法由三部分组成，分别是TM-CAM,CN-CAM和重构模块组成。
TM-CAM
结构如下

这个模块可以同时处理大运动和小运动，实现帧间对齐目的，并且作者说小运动对齐的准确性（在亚像素级别）是非常重要的，因为他是引入细节的源头。
以上图为例，这模块首先对输入帧的特征分别执行下采样操作，然后从分辨率最低的一级开始，逐级往上开始融合，直到分辨率最大的一级为止。通过这种方式达到同时捕获大运动和小运动的目的，从而实现更加准确的对齐操作。其中AU单元结构是实现这个功能的关键，结构如下：
在这里插入图片描述
它的思路是：
1）在目标帧中，对于每一个位置，以它为中心，选择一个领域大小作为patch，然后在近邻帧中，以它为中心，在指定的范围查找与目标帧中对应patch最为相似的K个patch。
2）之后将这K个最相似的patch按通道拼接，通过一组卷积（即上图中的Aggr）进行融合，得到一个中间patch
3）为中间patch中各个位置分配权重，这里不是相同的权重，而是通过学些得到。具体地，近邻帧与目标帧特征拼接后送入一个卷积层，它的输出是一组权重，并且是针对每一个像素而言的，因此它的输出大小是 $H{\times}W{\times}Patch$
4）最后生成的权重与中间patch相乘得到对齐后的近邻帧。
注：
a、这里Patch的大小设为了 $3\times3$

最低0.47元/天解锁文章