目标检测——R-FCN

Paper:R-FCN: Object Detection via Region-based Fully Convolutional Networks
作者:Jifeng Dai, Yi Li, Kaiming He, Jian Sun

Visual Computing Group / Microsoft Research Asia
1 提出框架

首先说一说为什么提出了RFCN。作者分析此前的各种分类和检测框架,发现了一个问题:很多网络应用在分类问题的时候都能取得相当好的结果,准确率非常高,但是在应用到检测问题上的时候结果似乎就没那么理想了,这是为啥呢?除去分类和检测问题本身的复杂性,作者思考了一下这些框架的特点。
我们知道,在做分类问题的时候,从早期的AlexNet、VGGNet到之后的GoogleNet、ResNet使用的模式都是“卷积网络提取特征+全连接层/GAP层做分类”,于是在处理检测问题的时候,这种模式就被自然而然的迁移过来,比如我们之前说过的RCNN系列、SSD等等,也都是采取卷积网络提取特征(加入ROI提取)+RoI Pooling的模式来做检测。
于是作者就此分析了解决分类/检测两种问题的关键:
(1) 分类问题: 其本身要求具有平移不变性。也就是说当目标的位置发生变化时,分类网络能够自动适应位置的变化。
(2) 检测问题: 对目标进行定位的需求要求其具有平移敏感性。由于检测问题需要在图像中对目标进行精确的定位,因此要求整个网络对目标的位置变化更为敏感。
通过先前的学习我们了解到,分类问题中深度卷积网络使得整个模型具有很好的平移不变性,而检测问题中引入的RoI Pooling的操作引入了位置信息。但是作者认为这种做法大大牺牲了训练和测试的效率。
于是作者就此提出了一个新的操作:叫做位敏得分特征图(position-sensitive score maps)。基于这个玩意做出了新的检测框架:Region-based Fully Convolutional Network (R-FCN)。

2 R-FCN框架和细节
2.1 R-FCN整体的网络结构

咱们先来看看整个R-FCN网络的结构:


整个网络沿用了Faster-RCNN(可以会看我们的博客Faster RCNN)的框架:卷积网络提取特征,由RPN生成候选框,RPN和特征提取共享卷积网络。
(1) 特征提取部分采用ResNet-101的结构,去掉了最后的GAP层和fc层,并添加了一个1024维的1*1卷积用来降维(原输出是2048维),总共101个卷积层。
(2) RPN部分与Faster-RCNN相同,基本没有变化。
(3) 位敏得分特征图(Position-sensitive score maps) 生成和位敏RoI Pooling(Position-sensitive RoI pooling, PSRoIPooling)部分。(划重点!)

2.2 Position-sensitive score maps(位敏得分特征图,PSSM)

顾名思义,位敏得分特征图就是一个对位移敏感的特征图(废话,,为啥对位移敏感等会儿会说)。这一步的操作是在特征提取部分网络输出的feature map(1024个 w ∗ h w*h wh的feature map)后接一个 k 2 ( C + 1 ) k^2 (C+1) k2(C+1)维的 1 ∗ 1 1*1 11卷积层得到 k 2 ( C + 1 ) k^2 (C+1) k2(C+1)个大小为 w ∗ h w*h wh的Position-sensitive score maps,这个 k 2 ( C + 1 ) k^2 (C+1) k2(C+1)个score maps代表啥呢?看下图:


假设将由RPN提取的ROI划分为 k ∗ k k*k kk个bin,使用上述的 1 ∗ 1 1*1 11卷积分别获得针对每个bin的激活图(feature map),那么针对其中某一个类别就将获得 k ∗ k k*k kk个激活图(feature map),总共有C个类别,加上一个背景类,就将获得 k 2 ( C + 1 ) k^2 (C+1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值