目标检测6--R-FCN中的Position-Sensitive RoI Pooling

原创

于 2023-02-15 22:11:47 发布 · 513 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #深度学习 #计算机视觉

R-FCN是一种全卷积网络结构，旨在提高目标检测的准确性与效率。它引入了Position-SensitiveScoreMap来处理对象平移不变性和位置敏感性问题，通过Position-SensitiveRoIPooling实现更精确的特征提取。网络在训练后能够反映出RoI不同部分的评分，且在后续的DeformableRoIPooling中得到了进一步优化。

文章目录

欢迎访问个人网络日志🌹🌹知行空间🌹🌹

1.介绍

论文: Region-based Fully Convolutional Networks

代码: R-FCN

本论文作者同9.Deformable CNN,是清华大学的代季峰等于2016年05月份发表的。

这篇文章中作者提出了R-FCN,Region Based Fully Convolutional Network,2016年的时候对标的还是Region Based的Fast/Faster R-CNN算法。R-FCN是一种全卷积的网络结构，几乎所有的计算对于整张图像都是共享的，因此结果相比更为准确，计算更为高效。在这篇文章中作者提出了Position-Sensitive评分图以解决分类问题中对象的平移不变性和目标检测问题中的位置敏感性。

2.Position-Sensitive Score Map 和 Position-Sensitive RoI Pooling

R-FCN的整体架构：

在这里插入图片描述

可以看到网络总体结构和Faster R-CNN十分相似，都是由RPN和RoI组成，明显的不同是图中Feature Maps被赋予了不同颜色，其被称之为Position-Sensitive Score Maps,具体含义如下面介绍。

在这里插入图片描述

如上图，Position-Sensitive Score Maps的通道数为 $k^2(C+1)$ ,其中C是检测对象的类别，+1表示的是背景类， $k$ 表示的是RoI Pooling后得到的feature map的宽高，正如上图中所注释的，Position-Sensition Score Map上每个通道(一种颜色)所表示的是RoI所分的 $k\times k$ 区域中的一个区域属于C+1类别的概率，这相当于把对象按部位拆成了 $k^2$ 类别，分别判断某个部位所属的类别和位置。如下图检测human类别时，k=3在Position-Sensititve Score Maps中可以理解为：

在这里插入图片描述

在Position-Sensitive Score Map上做RoI Pooling时，输出 $k\times k$ 大小的feature map中的每一部分，分别取自Position-Sensitive Score Map的对应C+1个通道上，并非取自所有通道，在以上Position-Sensitive RoI Pooling图中用不同的颜色表示，因此Pooling后输出的feature map的大小为kxkx(C+1)。