Parallel Feature Pyramid Network for ObjectDetection

本文提出一种用于目标检测的新特征金字塔方法,利用SPP并行生成具有相似语义信息的不同尺寸特征,通过融合得到每层特征,特别适用于小目标检测,CVPR19的人体位姿文章参考了此方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ECCV18

现在主流的一些检测方法通常使用一个网络来 生成通道数递增的特征,如SSD, 但是这样不同层语义信息差距较大, 会限制检测精度, 尤其是对小目标检测。 作者认为相较于提升深度, 提升网络的宽度更有效。

首先使用SPP(spatial pyramid pooling) 来生成不同分辨率的特征, 这些特征是并行生成的,可以认为这些不同尺寸的特征之间有相似的语义信息。 然后我们resize这些特征到相同尺寸, 进行融合, 得到特征金子塔的每个层特征。

 这个图是不同方法使用特征的方式, 其中(a)下是SSD的方式, (d)是文章提出的方法。

细节如下:

输入图片经过base network提取的特征大小设为:D*W*H。 经过SPP, 生成不同尺寸相同channel的特征:

其中第n个特征通道数为D, 分辨率为

我们继续使用bottleneck来进一步提取特征和降低channel,生成:

通道数均为:D/(N-1)。 分辨率不变。

然后用MSCA模块来融合F_HF_L。具体的:

p_1的生成为例, 首先将f^{(0)}_L降采样, f^{(2)}_L上采样,到f^{(1)}_L的尺寸, 然后通过skip连接将f^{(1)}_H与它们concat。

之后再通过一段卷积, 得到p_1

小结:

本文提出一种新的生成feature pyramid的方法,结合SPP, 通过并行的方式生成。

CVPR19的 deep high resolution那篇做人体位姿的文章应该就是参考了这篇, 使用并行架构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值