目录
前言
复杂背景下的目标检测是计算机视觉领域中一个十分重要的课题. 传统的目标检测方法面临以下两个问题: 一是基于滑动窗口的区域选择策略容易产生窗口冗余; 二是手工设计的特征对于目标多样性的变化并没有好的鲁棒性. 因此, 基于深度学习的目标检测方法开始受到人们的广泛关注. 深度学习方法能克服传统人工选取特征的缺点, 自适应地学习表征目标的最佳特征, 且抗干扰性能优异, 可以有效提高目标识别的准确性和鲁棒性[1].
在深度学习目标检测模型中, 具有代表性的是Girshick等[2]提出的一系列目标检测算法, 其开山之作是R-CNN (region-convolutional neural network). 针对R-CNN训练时间过长的问题, Girshick[3]又提出了Fast R-CNN. 与R-CNN类似, Fast R-CNN依然采用selective search[4]生成候选区域, 但是, 与R-CNN提取出所有候选区域并使用SVM分类的方法不同, Fast R-CNN在整张图片上使用CNN, 然后使用特征映射提取感兴趣区域(region of interest, RoI); 同时, 利用反向传播网络进行分类和回归. 该方法不仅检测速度快, 而且具有RoI集中层和全连接层, 使得模型可求导, 更容易训练. Ren等[5]又提出了Fast R-CNN的升级版本Faster R-CNN算法. Faster R-CNN是第一个真正意义上端到端的