前言
- region-based目标检测方法:比如Fast R-CNN和Faster R-CNN,检测精度较高,并且RPN能够去除一些背景样本,但资源和时间消耗太大;
- region-free目标检测方法,比如SSD和YOLO,它们的检测效率很高,但检测精度却略有不足,由于没有RPN对负样本进行过滤,正负样本的比例严重失衡。而且YOLO只利用最后一层进行检测,而SSD虽然利用了较浅的层的结果,但仍无法准确地检测小目标。
为了结合region-based和region-free方法的优点,本文提出RON(Reverse connection with Objectness prior Networks),它主要关注两个方面的问题:
- 多尺度目标定位。通过逆向连接(reverse connection)将更多的语义信息传递给较浅的层,使得目标能够在对应的网络尺度上进行检测;
- 负样本挖掘。在卷积特征图上创建objectness prior,以减少目标的搜索空间,从而解决正负样本间的不平衡问题。
网络结构
RON的整体结构如下图所示:
使用VGG-16作为backbone,VGG-16共有13个卷积层和3个全连接层,将FC6(第14层)和FC7(第15层)转换为卷积层,使用步长为2,大小为 2 × 2 2 \times 2 2×2的卷积对FC7进行2倍的下采样。那么这样就能得到原图大小的1/8(conv 4_3),1/16(conv 5_3),1/32(conv 6)和1/64(conv 7)的特征图,使用这些特征图进行目标检测。
1. reverse connection(逆向连接)
逆向连接块如上图所示,逆向连接的过程如下:
- 首先将reverse fusion map(rf-map) n + 1 n+1 n+1经过一个解卷积层;
- 将conv n经过一个卷积层,以使二者拥有相同的维度;
- 通过element-wise相加将这两个map结合起来。
注意,最后一个rf-map 7其实就是backbone中conv 7输出的特征图,然后就逐层向前融合,浅层的语义信息也会因此得到加强。
2. 如何在网络的不同尺度上生成候选框
在经过逆向连接生成不同尺度的特征图后,作者为每个特征图设计了不同大小的候选框,以预测特定尺度的目标。设最小的尺度为 s m i n s_{min} s