4、实验
本文采用的深度卷积神经网络的原型是(Krizhevsky et al 2012)。利用这个网络训练得到多种特征,然后在多个视觉任务上进行测试。本节讨论的”向前路径“计算法在ILSVRC-2010取得了很好的效果。问题是:利用CNN提取的特征是否可以应用到其他数据集上?CNN的性能是如何随着网络的深度变化的?本文定性和定量的说明了这两个问题,通过可视化语义簇,实验对比和“基准”方法的差别。
本节展示了CAFFE在一些基准数据集上的实验结果,对比了不同的特征提取法和分类法。试验中,CNN网络的第n层激活值,表示成 。 表示最后一个隐层提取的特征(即在最后一个输出分类结果的全连接层之前), 是 前面的激活层, 是 前面的激活层。 是穿过卷积网络的第一个激活层。本文没有评价网络中更低级的层了,因为这些卷积层和高级层相比,没有丰富的语义表示。隐层的激活值就是特征,卷积层之间共享权重。
4.1对CAFFE的测试实验
本文采用的CNN基本的架构来自于(Krizhevsky et al 2012),Krizhevsky赢得了ILSVRC2012的冠军,它的错误率是40.7%。选择这个架构是因为它在复杂多分类任务上的性能不错,并且假设每一个神经元的激励是一个很强的特征。网络输入时RGB的平均值,然后向前传播,穿过5个卷积层(包括对应的pooling层和RuLU非线性单元),3个全连接层,然后得到了最后一层的神经元激励(输出),即1000个类的分布。本文模型的一个实例得到错误率是42.9%,比2012年paper的40.7%差。
本文引用2012年的paper,详细讨论了网络结构和训练规则,以下是两个小的差异:首先,本文忽略了图像原始比例,把它伸缩到256X256,而不是剪裁。然后,本文没有增加数据集的每个像素点的RGB的主成分(的倍数),而是捕获亮度和颜色变化中的不变量。
图 1. 利用t-SNE特征在LISVRC-2012验证集上可视化。(a)是LLC特征,(b)是GIST特征,(c)是CNN的 层特征,(d)是 层特征