Going Deeper with Contextual CNN for Hyperspectral Image Classification
原文:第二版:https://arxiv.org/pdf/1604.03519.pdf | 第一版
代码:第一版:https://github.com/nshaud/DeepHyperX
Abstract
本文设计了一个又深又宽的CNN来进行高光谱图像分类,称之为 contextual deep CNN。通过联合相邻像素向量的局部空间-光谱关系来探索局部上下文交互信息。这种对空间-光谱信息的联合式探索是通过多尺度卷积实现的。作者认为将从多尺度卷积组获得的初始空间和光谱特征图组合在一起,就形成了联合的空间光谱特征图。最后将得到的特征图送到一个全卷积网络中。
I. INTRODUCTION
深度学习已经用在高光谱分类中,但是由于数据量少,训练样本不足,无法使用参数量较多的网络。所以,目前使用CNN的方法多是使用小尺度的网络。但是作者认为,使用 large-scale networks 对于提取高维的空间光谱信息是有必要的。作者引入了残差结构(enhance the train efficiency of large scale networks)和 Inception结构(“ The multi-scale filter bank is basically used to exploit various local spatial structures as well as local spectral correlations ”)。
II. RELATED WORKS
作者称在高光谱分类中,这是首次在 relatively small amounts of training samples 的情况下构建 much deeper and wider network 。
III. THE CONTEXTUAL DEEP CONVOLUTIONAL NEURAL NETWORK
B. Architecture of the Proposed Network
如图为本文所提结构。首先,高光谱图像进入一个类似 Inception v1 的结构,文中称为 “multi-scale filter bank”; 然后接了两个类似残差单元的结构;与AlexNet相似,第七个和第八个卷积层接了一个Dropdout。还需要注意的是,该结构的所有卷积后的 feature map 的大小(H * W)和数量(128)都是一致的。
该结构一个很大的特点是全程使用1 × 1的卷积,作者提到1 × 1的卷积可以达到与全连接(MLP)相同的效果。
就像Lecun说的:In Convolutional Nets, there is no such thing as “fully-connected layers”. There are only convolution layers with 1x1 convolution kernels and a full connection table. – Yann LeCun
关于这点,也有一些反对意见:https://www.quora.com/Is-a-fully-connected-neural-network-conceptually-similar-to-a-1x1-convolutional-neural-network
当然无论等不等价,我认为这里一直用1 × 1卷积其实也是无奈之举,毕竟patch size还是比较小嘛 (本文选取 5 × 5)。
How Much Deeper Does the Proposed Network Go? 作者主打的还是希望网络更深更宽,有更多参数。但毕竟数据量还是少,所以就定在了9层。为了突出所提网络参数量相对较多,作者使用参数量和数据量的比值作为评估标准,如下表。作者认为,这可以说明所提网络有足够的深度/参数量来充分提取数据特征。
C. Multi-scale Filter Bank
Multi-scale Filter Bank 是由一个 1×1, 一个3×3和一个5×5的卷积组成。其中,3×3和5×5的卷积用来提取空间信息,1×1用来提取光谱信息。
D. Residual Learning
...
E. Learning the Proposed Network
随机划分:从高光谱图像中随机采样一定数量的像素以进行训练,并使用其余像素评估网络的性能。为了公平比较,我们从每个类中随机选取200个样本作为训练样本,就像“W. Hu, Y. Huang, L. Wei, F. Zhang, and H. Li, Deep convolutional neural networks for hyperspectral image classification” 中一样。其余的则用于测试所提出的网络。
数据增强:为避免过度拟合,我们通过在水平,垂直和对角轴上镜像训练样本来四倍地增加训练样本的数量。
IV. EXPERIMENTAL RESULTS
A. Dataset and Baselines
B. HSI Classification
C. Finding the Optimal Depth and Width of the Network
为了找到所提网络的最优宽度,作者改变卷积filter的数量进行消融实验: 64、128、192、256。
为了探究网络的最佳深度,作者通过改变残差单元的数量来改变网络深度:
D. Effectiveness of the Multi-scale Filter Bank
作者还对Multi-scale Filter Bank的结构进行了探索,如下图是几种Multi-scale Filter Bank结构。
E. Effectiveness of Residual Learning
F. Performance Changes according to Training Set Size
G. False Positives Analysis
...
个人评价:
槽点:文章有点啰嗦;网络结构中,Multi-scale Filter Bank 的池化操作很迷幻;有一些在现在看来没有必要的对比试验。
优点:实验很详细丰富,科研态度和研究思路值得学习;用混淆矩阵对实验结果进行分析,值得借鉴