Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587. —— [ 论文链接]
简介
在R-CNN之前的对象检测方法一般都是将低层图像特征和高层上下文相结合,相比于R-CNN,在对象检测过程中最好的mean average precision也不超过30%。R-CNN方法结合了两个关键点:(1)将高容量卷积神经网络(CNN)应用于自下而上的区域候选集,以便对对象进行定位和分割;(2)当带标签的训练数据稀缺时,使用带监督信息的预训练CNN网络,并对特定领域进行微调,可以显著提示性能。
R-CNN
模块设计
区域候选集:近来有一系列文章提出了生成与类别无关的区域候选集的方法,例如select search、multi-scale combinatorial grouping等。本文中作者使用的是selective search方法;
特征提取:使用一个CNN网络提取每个候选区域的特征向量( 4096 维)。因为神经网络的输入需要是一个固定尺寸,因此每次都需要把候选区域调整成