Rich feature hierarchies for accurate object detection and semantic segmentation
概要
文章提出了一种目标检测算法,使得平均准确度相较于目前的最优方法相对提升了30%。该方法使用了卷积神经网络CNN来预测选取的区域从而定位和分割检测目标。当标记的训练数据较少时,该方法可以先在辅助数据集上进行有监督的预训练,再到目标数据集进行调整训练,使效果得到了较大提升。这一方法因为使用了CNN与区域选取结合,被称为R-CNN,即Regions with CNN features。
R-CNN思想
与图像分类问题不同,目标检测问题除识别物体种类之外还需要在图像中定位物体的具体位置。过去的解决方法包括两类,即将定位视为一个回归问题,以及使用滑动窗口检测器,但这两种方法效果都并不理想。
作者提出了一种新的目标检测思想,即基于区域的识别,并在目标检测和语义分割领域都取得了不错的效果。对于每一张测试图片,算法首先生成约2000个候选区域,并对每一个区域提取固定长度的特征矢量,随后使用支持向量机(SVM)对其特征矢量进行分类。整个过程如下:
R-CNN细节
R-CNN分为三个模块:
- 候选区域生成
- 提取特征矢量的CNN网络
- 一系列针对每一类的SVM分类器
有许多方法可以实现候选区域生成,R-CNN采用了选择性搜索的方法,该方法来自《Selective search for object recognition》。
特征提取则采用了2012年提出的Alexnet网络,来