TrientNet: 探索感受野对目标检测准确率的影响
论文 2019:Scale-Aware Trident Networks for Object Dectection
文章目录
一、对多尺度目标进行检测的探索
1.相关研究
在目标检测中,目标的尺度变化是影响检测结果的重要因素,与尺度变化相关的研究有很多,大致分为两类:
1)multi-scale imgae pyramids 多尺度图像金字塔
解决多尺度目标最直接的方法是输入多尺度的图像,也就是通过缩放图像实现不同尺度的检测,这的确是种有效的方法,但是会增加检测时间,实际项目难以应用。
例子:
SNIP, SNIPER, AutoFocus是优化了计算过程,但速度仍不够快。
2)multi-scale feature pyramids 多尺度特征金字塔
这是对第一种方法的近似,利用不同层的不同尺度的特征图进行检测。输入的图像是单尺度的,但是因为网络中的特征是多尺度的,对应多种大小的感受野,所以利用不同大小的特征,可以近似地完成对图像的多尺度检测。
缺点:在图像金字塔中,多种尺度的图像通过相同的网络,所以对于不同尺度,这种算法是公平的;而在特征金字塔中,小尺度使用小感受野的低层特征,大尺度目标使用高层特征,高层特征来自更深的网络,能力更强,所以它们是不公平的。
例子:
SDD利用不同层的多尺度特征图,在每一个层上进行检测。
FPN在低层与高层之间建立了通路。
2.对感受野的探索
对于网络的骨干(backbone)来说,影响网络性能的因素大致有下采样率,网络深度,感受野。对于前两者的研究比较多,而直接研究感受野影响的实验比较少,作者利用基于ResNet-C4的Faster R-CNN,通过改变其感受野,探索了检测器的性能。
1)前提知识
感受野
感受野一个特定CNN的特征在输入空间中看到的区域。
我们可以将感受野理解为特征图的一个元素的计算受输入图像中某个区域的影响,这个区域就是感受野。
例如上图:假设L1的感受野大小是 1 × 1 1\times 1 1×1,则L2是 3 × 3 3\times 3 3×3,L3是 5 × 5 5\times 5 5×5,如果再增加一个 2 × 2 2\times 2 2×2的池化层,则感受野是 10 × 10 10\times 10