目标检测6--R-FCN中的Position-Sensitive RoI Pooling

R-FCN是一种全卷积网络结构,旨在提高目标检测的准确性与效率。它引入了Position-SensitiveScoreMap来处理对象平移不变性和位置敏感性问题,通过Position-SensitiveRoIPooling实现更精确的特征提取。网络在训练后能够反映出RoI不同部分的评分,且在后续的DeformableRoIPooling中得到了进一步优化。


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


1.介绍

论文: Region-based Fully Convolutional Networks

代码: R-FCN

本论文作者同9.Deformable CNN,是清华大学的代季峰等于2016年05月份发表的。

这篇文章中作者提出了R-FCN,Region Based Fully Convolutional Network,2016年的时候对标的还是Region BasedFast/Faster R-CNN算法。R-FCN是一种全卷积的网络结构,几乎所有的计算对于整张图像都是共享的,因此结果相比更为准确,计算更为高效。在这篇文章中作者提出了Position-Sensitive评分图以解决分类问题中对象的平移不变性和目标检测问题中的位置敏感性。

2.Position-Sensitive Score Map 和 Position-Sensitive RoI Pooling

R-FCN的整体架构:

在这里插入图片描述

可以看到网络总体结构和Faster R-CNN十分相似,都是由RPNRoI组成,明显的不同是图中Feature Maps被赋予了不同颜色,其被称之为Position-Sensitive Score Maps,具体含义如下面介绍。

在这里插入图片描述

如上图,Position-Sensitive Score Maps的通道数为 k 2 ( C + 1 ) k^2(C+1) k2(C+1),其中C是检测对象的类别,+1表示的是背景类, k k k表示的是RoI Pooling后得到的feature map的宽高,正如上图中所注释的,Position-Sensition Score Map上每个通道(一种颜色)所表示的是RoI所分的 k × k k\times k k×k区域中的一个区域属于C+1类别的概率,这相当于把对象按部位拆成了 k 2 k^2 k2类别,分别判断某个部位所属的类别和位置。如下图检测human类别时,k=3Position-Sensititve Score Maps中可以理解为:

在这里插入图片描述

Position-Sensitive Score Map上做RoI Pooling时,输出 k × k k\times k k×k大小的feature map中的每一部分,分别取自Position-Sensitive Score Map的对应C+1个通道上,并非取自所有通道,在以上Position-Sensitive RoI Pooling图中用不同的颜色表示,因此Pooling后输出的feature map的大小为kxkx(C+1)

将一个大小为 w × h w\times h w×

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值