目标检测 TridentNet 利用dilated rate的分支结构使网络提高对多种尺度目标的学习能力

TrientNet: 探索感受野对目标检测准确率的影响

论文 2019:Scale-Aware Trident Networks for Object Dectection

一、对多尺度目标进行检测的探索

1.相关研究

​ 在目标检测中,目标的尺度变化是影响检测结果的重要因素,与尺度变化相关的研究有很多,大致分为两类:

1)multi-scale imgae pyramids 多尺度图像金字塔

​ 解决多尺度目标最直接的方法是输入多尺度的图像,也就是通过缩放图像实现不同尺度的检测,这的确是种有效的方法,但是会增加检测时间,实际项目难以应用。

例子:

​ SNIP, SNIPER, AutoFocus是优化了计算过程,但速度仍不够快。

2)multi-scale feature pyramids 多尺度特征金字塔

​ 这是对第一种方法的近似,利用不同层的不同尺度的特征图进行检测。输入的图像是单尺度的,但是因为网络中的特征是多尺度的,对应多种大小的感受野,所以利用不同大小的特征,可以近似地完成对图像的多尺度检测。

​ 缺点:在图像金字塔中,多种尺度的图像通过相同的网络,所以对于不同尺度,这种算法是公平的;而在特征金字塔中,小尺度使用小感受野的低层特征,大尺度目标使用高层特征,高层特征来自更深的网络,能力更强,所以它们是不公平的。

例子:

​ SDD利用不同层的多尺度特征图,在每一个层上进行检测。

​ FPN在低层与高层之间建立了通路。

2.对感受野的探索

​ 对于网络的骨干(backbone)来说,影响网络性能的因素大致有下采样率,网络深度,感受野。对于前两者的研究比较多,而直接研究感受野影响的实验比较少,作者利用基于ResNet-C4的Faster R-CNN,通过改变其感受野,探索了检测器的性能。

1)前提知识
感受野

感受野一个特定CNN的特征在输入空间中看到的区域。

​ 我们可以将感受野理解为特征图的一个元素的计算受输入图像中某个区域的影响,这个区域就是感受野。

在这里插入图片描述

例如上图:假设L1的感受野大小是 1 × 1 1\times 1 1×1,则L2是 3 × 3 3\times 3 3×3,L3是 5 × 5 5\times 5 5×5,如果再增加一个 2 × 2 2\times 2 2×2的池化层,则感受野是 10 × 10 10\times 10

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值