论文学习笔记: Convolutional Neural Pyramid for Image Processing
原文链接:Convolutional Neural Pyramid for Image Processing
前言
今年刚出的文章,面对的是image restoration的问题。
既然是图像修复, 那么进行修复工作的依据,也就是信息来源,必然是图像的其他完好的区域。所能获取相关图像信息的范围越大,特征越丰富,进行修补工作显然是越容易的。
在卷积网络中,感受野这一概念被用来表示一个特征的信息来源在原图上的分布。其定义为 : 卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。
关于感受野的概念和计算,可以参看这篇文档 : 卷积神经网络物体检测之感受野大小计算
按照原文摘要中的说法:
But corresponding neural networks for regression either stack many layers or apply large kernels to achieve it, which is computationally very costly.
为了获得更大的感受野,采用的方法往往是
- 堆叠很多数量的网络层数
- 采用大尺度的卷积模板
这就会消耗大量的计算资源。虽然还有像dilated convolution这样的稀疏的卷积模板,试图缓解计算量和感受野大小的矛盾,但其本质还是采用更大的卷积模板。
同时,原文也提到:
This analysis also reveals the fact that color and edge information vanishes in late hidden layers.
即采用更多的网络层数会使一些较小尺度的特征在逐层传播的过程中逐渐消失。
这篇文章提出的金字塔卷积网络, Convolutional Neural Pyramid(CNP),将CNN与图像处理中常用的尺度金字塔的概念结合了起来,能够在不显著增加计算量的情况下,扩大特征的感受野,同时保留不同尺度的特征,按照原文所给的实验结果,其图像修复、除噪、增强的效果和效率是明显优于其他的网络结构的。
论文概述
网络结构
先贴上最关键的网络结构图:
可以看到,CNP将网络分成了许多级,各级之内进行的是一样的运算:提取特征(Feature Extraction)、映射(mapping)、重建(Reconstruction)。
各级的编号从0开始到N-1,编号越大,其代表的级内特征的尺度越大,也就是感受野越大。特征通过下采样(Down-sampling)的方法从低层传递到高层,通过上采样(Up-sampling)从高层回到低层。
由于原文应用的目标是图像的还原,所以输出的尺寸需要调整。故在用CNP网络得到了特征之后添加了一个调整尺度的网络结构(Adjustment)
特征提取 – Feature Extraction
和网络结构图中(b)图表现的一样,每一个特征提取模块由两个使用了PReLU作为激活函数的卷积层组成。关于PReLU的信息,可以参照:深度学习——PReLU激活
卷积层使用的是3×3的卷积模板,输出为56维。按照网络结构, i+1 级的输入来自于 i 级的特征提取模块的输出。也就是说,对于第