论文题目:Rich feature hierarchies for accurate object detection and semantic segmentation
论文地址:https://arxiv.org/abs/1311.2524
tensorflow rcnn代码地址:https://github.com/Liu-Yicheng/R-CNN
RCNN,即Region CNN。
目标检测,不仅要将图片中含有的物体判断出是什么类别,而且还要找到物体所在的位置。
一般分为以下步骤:
1、提取可能存在物体的区域框
2、用CNN提取特征
3、对区域框的物体进行分类、框回归
一、对论文的解读
1、网络模型:AlexNet
2、目标检测过程
(1)用selective search方法,从输入图片中提取2000个类别独立的候选区域。(selective search 也就是将图像分割成很多小的区域,计算区域之间的相似度(颜色、纹理等等),进行融合,形成大一些的region,结合各尺度结果。)
(2)对每个区域使用CNN,得到一个固定长度的特征向量。
(3)对每个区域用SVM进行目标分类。
3、迁移学习、finetune
在ImageNet数据集上训练得到很多很好的物体通用的特征,将其放在PASCAL VOC数据集上训练识别某些物体类型的能力。
4、inputsize:227*227pixel,由CNN的网络输入大小决定,因此将不同尺度的候选框wrap到227*227。
5、NMS
NMS,non maximum suppression,即非极大值抑制。就是将检测出的候选框,按照置信度score进行排序,保留最高的那个候选框。用NMS可以去掉重复的候选框,可以大大提高计算速度,没有冗余计算,而且较为准确。
6、查全率(precison)和查准率(recall)
定义以下标记:
tp:正确的标记为正;预测为真,实际为真
fp:错误的标记为正;预测为假,实际为假
tn:正确的标记为负;预测为真,实际为假
fn:错误的标记为负;预测为假,实际为真
查准率:precision = tp / (tp+fp) ;宁愿漏掉,不可错杀;正确预测占所有预测的比例
查全率:recall = tp / (tp+fn) ;宁可错杀,不可漏掉;正确预测占所有正例的比例
它们是评价模型的不同标准。
7、评价指标mAP
mAP,mean Average precision,对所有类别的precison取平均。
IoU,Intersection over Union,即交并比,本文Iou>0.5,就标记为positive正样本。