Faster R-CNN理解

Faster R-CNN 论文链接:https://arxiv.org/abs/1506.01497

一、创新点
  • 目前object detection的成功主要在于region proposal方法以及region-based CNN网络方法。
  • region proposal耗时成为object detection的瓶颈。
  • 作者设计提出RPN网络,替代region proposal方法的同时,实现end-to-end网络。
  • rpn网络利用特征图实现region proposal,使得时间降低到10ms/张。
  • rpn利用“anchor”实现多尺度,多方向的变换。(论文中同时介绍了其他的方法,比如图像金字塔,但是感觉还是anchor比较实用)
  • 为了保证rpn与fast rcnn的一致,作者提出了一种交替训练的方法。
二、Faster R-CNN详解

Faster RCNN整体结构采用Fast R-CNN,另外利用设计的RPN网络替代Selective Search方法实现region的生成,如下图所示:

这里写图片描述

图:faster r-cnn示意图

2.1 RPN 网络

RPN网络的输入为任意尺寸的图像,输出为一系列的矩形框以及是否为object的得分。

RPN网络采用n*n(默认n取3)的滑动窗口,首先通过卷积进行降维(实验默认是ZF-256维,VGG-512维),然后分别连接两个全连接层reg以及cls,实现回归与分类。

这里写图片描述

rpn结构示意图

2.1.1 anchor
  • 对于每个滑动窗口,rpn网络预测k个region proposal区域,这样reg网络便产生4k个输出代表着坐标,cls产生2k个输出,代表在是否为object
  • k个不同大小的rp区域作者称之为anchor,faster r-cnn默认提取9个anchor,分别对应3个尺寸(作者默认为128,256,512),3个长宽比(作者默认为:1:1,1:2,2:1),如下是对应图像宽度缩放到600采用ZF网络时候对应的anchor的尺寸。

这里写图片描述
* 平移不变性。
* 相比较与multibox,采用本文方法的参数量大幅降低。
* multi-scale anchor,常用的多尺度方法如下,(a)为图像金字塔比较耗时,(b)为多尺度滤波器,本文选择方法(c)。

这里写图片描述

2.1.2 loss function

anchor 正负样本的分配:
* 与IOU重合度最大的标记被正样本
* 与IOU重合度大于70%的标记为正样本
* 与IOU重合度小于30%的标记为负样本。

loss function定于如下:
L(pi,ti)=1NclsiLcls(pi,pi)+λipiLreg(ti,ti)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值