论文网页:[https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html]
R-CNN——SPPNet——Fast R-CNN——Faster R-CNN——YOLO——SSD
1. R-CNN
R-CNN流程:
第一阶段(生成候选区域):
采用选择性搜索算法在所输入的图片上提取出2000个左右最有可能是目标的候选区域。
第二阶段(特征提取):
将候选框尺寸调整到227*227后输入到预先训练好的卷积神经网络中进行特征提取。
注:CNN只充当特征提取器。
第三阶段(分类):
将CNN提取到的特征输入到预先训练好的SVM分类器中,得到各类别的评分,将一些分数较低的候选区域直接去掉,剩下的候选框会出现相交的情况,采用非极大值抑制技术去除冗余的框。
说明:R-CNN论文中使用的CNN网络是AlexNet,数据集时ImageNet。训练CNN网络时,先在数据集上训练,再在目标检测数据集上对训练好的CNN做微调。
AlexNet:
ImageNet: ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。2016年ImageNet数据集中已经有超过千万张图片,每一张图片都被手工标定好类别,其类别达上千个。