Abstract
以往的目标检测算法不仅效果不好而且原理复杂,RCNN是一种简单并且可扩展的算法,在VOC2012数据集上mean average precision (mAP)提高了30%。RCNN主要使用了两个方法:(1)使用CNN代替传统的特征提取方法来对候选区进行定位和分割(2)对于目标检测任务来说数据量是稀少的,所以采用了预训练CNN的策略。
Introduction
特征问题,最初是利用SIFT和HOG并利用复杂的ensemble系统的方法,后来由于基于生物上的视觉处理过程,由SIFT引入CNN,以及近些年CNN以成为主流算法(所以我得找个时间把上面得传统特征提取算法原理过一遍~)。由于近些年CNN在图像分类任务上表现优异,本文作者就试图把图像分类任务扩展到目标探测上来,实验表明利用CNN得优势相比传统算法,在目标探测算法上取得了更好得效果。
定位问题和图像分类是不同的,其中,定位问题的一种解决办法是被视为回归问题,然而当时!这种方法取得效果并不好,另一种方法是利用滑窗的思想;相反,RCNN原理是对候选区进行识别。算法流程如下:
图像处理流程:
(1) 以整张图像作为输入
(2) 图去大约2000个候选区域
(3) 对每个候选区域利用CNN网络进行特征提取
(4) 利用特定类的线性SVM分类器对特征进行分类
此外需要注意的是,因为CNN需要相同维度的输入,所以要对候选区域进行reshape,但这样以来就会使目标对象变得扭曲进而丢失了其真实状态,对算法识别及泛化性方面有影响。在数据量稀少的情况下,为了防止模型过拟合会采用预训练的策略,目的是获得一个良好的初始化参