faster-RCNN理解

本文详细介绍了Faster R-CNN中的关键组件——区域提议网络(RPN)。RPN通过3*3卷积和1*1卷积输出目标与非目标概率及框的偏移量,生成约2万个anchor。经过非极大值抑制,保留 IoU>0.7 的框,再由Fast R-CNN进一步处理。RPN的每个位置对应9个anchor,使用feat_stride=16进行坐标转换。文章还探讨了anchor的生成方式和损失函数的计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RPN是regional proposal networks的缩写,是faster-RCNN结构中的一部分。
faster-RCNN由两个子网络构成。
  1. 第一个子网络RPN的作用是在给定图像上提取一定数量带有objectness(是否包含目标的置信度)。
  2. 第二个子网络直接利用fast-rcnn中的特征提取网络,用RPN获得的proposal替代fast-RCNN中selective search获取的proposal。

4k cordinates:每个窗口的坐标。这个坐标并不是anchor的绝对坐标,而是通过anchor回归groundtruth的位置所需要的偏差。

RPN网络的作用是输入一张图像,输出一批矩形候选区域,类似于以往目标检测中的Selective Search一步。网络结构是基于卷积神经网络,但输出包含二类softmax和bbox回归的多任务模型。网络结果如下(以ZF网络为参考模型):


其中,虚线以上是ZF网络最后一层卷积层前的结构,虚线以下是RPN网络特有的结构。首先是3*3的卷积,然后通过1*1卷积输出分为两路,其中一路输出是目标和非目标的概率,另一路输出box相关的四个参数,包括box的中心坐标x和y,box宽w和长h

从卷积运算本身而言,卷积相当于滑窗。假如输入图像是1000*600,则经过了几次stride后,map大小缩小了16倍,最后一层卷积层输出大约为60*40大小。因此,在对60*40的map进行滑窗时,以中心像素为基点构造9种anchor映射到原来的1000*600图像中,映射比例为16倍。那么总共可以得到60*40*9大约2万个anchor

假如某anchor与任一目标区域的IoU>

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值