Abstract
CNN在图像识别应用上性能很好,但是全局CNN特征缺少几何不变性,这也限制了CNN对于在变化比较大的场景中国的分类以及匹配应用的鲁棒性。
- 解决问题:在保证CNN特征的区分能力的同时,提高CNN特征的对各种不变性的鲁棒性。
- 解决方案:MOP-CNN multi-Scale scale orderless pooling
- 解决思路:在不同尺度上的局部 patch 上提取CNN特征,在不同尺度上分别对其进行无序的VLAD池化操作,将不同尺度上的池化之后的特征连接起来形成最终的特征
- 结果:提取得到的特征可以应用在有监督或者无监督的识别任务中,比如图像分类、类级检索。
- 比全局的CNN特征要好
Introduction
本文基于重用CNN特征,将其看作已有的特征来解决 whole-image tasks(比如分类或者检索),但是本文关注的是通过融合从不同的 local image windows 提取的特征能够对网络的性能有所提高,而不仅仅是计算整张图像的CNN特征。
BoW 是 orderless 方法,对于图像缩放、旋转、遮挡等有鲁棒性,但是没有考虑到全局的空间信息。
SPM(spatial pyramid matching)空间金字塔模型
CNN网络中,原始图像经过整个网络,在每层之后生成特征图谱,然后利用特征图谱中相近的特征进行pooling操作,这样能够保留一些全局的空间特征。
经过了 filtering and max-pooling layers 以及 几个 fully connected layers,最终得到 4096 维的特征。很难推出全连接层的不变性,本文从实验上来证明最终得到的CNN特征对全局平移、旋转、缩放仍然很敏感。
如果没有考虑到这些不变性,实验证明会有一些准度度的损失。
BoW 在整张图像中计算特征点的分布特征,BoW 丢失图像的局部/细节信息,缺少的是空间位置信息,SPM 是在不同分辨率上统计图像特征点分布,从而获取图像的局部信息
CNN中有太多的空间信息,能够通过构建更无序的空间特征提高性能呢,平衡 orderless and globally ordered
整体框架
整体框架
extracting deep activation features from local patches at multiple scales
aggregate local patch responses at the finer scales via VLAD encoding
连接所有的encoding得到最终的图像表示
分类: three image
datasets (SUN397, MIT Indoor Scenes, and ILSVRC2012/2013)
检索:on the Holidays dataset
The Proposed Method
想法类似于SPM,空间金字塔匹配,SPM是用于采样的batches的尺度不断增大。
MOP-CNN
Inspired by SPM , which extracts local patches at a single scale but then
pools them over regions of increasing scale, ending with the whole image
we propose a kind of \reverse SPM” idea, where we extract patches at multiple
scales, starting with the whole image, and then pool each scale without regard
to spatial information.
特征表示有三个层次【256*256】【128*128】【64*64】
使用的是预训练的ImageNet网络
给定一幅图像或者一个patch,首先将其重采样为【256*256】像素,然后减去像素的平均值,然后将patch输入到网络中。第七层全连接层经过ReLU操作之后,得到输出的4096维的向量。
第一个level,简单地将【256*256】的图像输入到网络中,并得到4096维的CNN表示。
剩下的两个level,使用【128*128】【64*64】的patch,步长是 32 像素。然后对这些特征进行pool操作得到一个合适大小的向量。本文中的这个pool操作使用了VLAD pooling 方法。
在每个level中,对每个patch都提取得到4096维的特征。为了计算更有效使用PCA将其降维到500维。
在每个level,使用k-means方法得到k=100的聚类中心。所以可以得到VLAD描述子。
给定一个 500维度(第一次PCA)的patch特征以及100个k-means中心,最终可以得到50000维度的特征表示,维度仍然很高,所以再次使用PCA(第二次PCA)降维到4096维度。
最后将三个level得到的特征单位化,然后将他们连接起来组成最终的图像表示。
Analysis of Invariance
Large-Scale Evaluation
Datasets
- SUN397
- MIT Indoor
- ILSVRC2012/2013
- INRIA Holidays
Image Classi cation Results
Image Retrieval Results
refer