当前最好的基于深度网络的目标检测框架可以分为两个主要方法流派:基于区域的方法(region-based)和不基于区域(region-free)的方法。两种方法各有优势和劣势。
由清华大学计算机系智能技术与系统国家重点实验室、清华国家信息实验室、清华大学计算机科学与技术系、英特尔中国研究院、清华大学电子工程系的研究人员共同参与的关于高效视觉目标检测的研究已经被 CVPR 2017 接收。论文题目是《RON: Reverse Connection with Objectness Prior Networks for Object Detection》。作者是孔涛、孙富春、Anbang Yao、刘华平、Ming Lu 和陈玉荣。该研究结合了两个主要方法流派的优点,提出了一个有效、高效的通用对象检测框架 RON。
一、网络结构
RON主要关注于两个目标检测领域的基本问题:
- 多尺度目标定位:研究设计了反向连接(reverse connection),使网络能够检测多层 CNN 中的对象
- 负样本挖掘:提出了目标先验(objectness prior)来引导目标对象搜索;利用多任务损失函数优化整个网络,这样网络就能直接预测最终检测结果。
在测试中,RON 达到了先进的目标检测性能。采用VGG-16网络在MS COCO数据集上预训练模型,在PASCAL VOC数据集上fine-tune,输入图片resize到384×384时,在VOC 2007数据集上m-AP达到了81.3%,在VOC 2012数据集上m-AP达到了80.7%。在测试阶段使用1.5G GPU显存,图片处理速度为15FPS,相同条件下比Faster R-CNN快3倍。
1.1 网络准备
使用VGG-16网络在ImageNet数据集上预训练作为测试用例参考模型。VGG-16有13个卷积层和3个全连接层,RON将全连接层FC6(第14层)和FC7(第15层)换成卷积层,并且用步长为2的2×2卷积核来将FC7层的分辨率降为一半。