Faster R-CNN理解

最新推荐文章于 2024-12-15 05:15:00 发布

春枫琰玉

最新推荐文章于 2024-12-15 05:15:00 发布

阅读量766

点赞数

分类专栏：深度学习-目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Chunfengyanyulove/article/details/80037396

版权

Faster R-CNN 论文链接：https://arxiv.org/abs/1506.01497

一、创新点

目前object detection的成功主要在于region proposal方法以及region-based CNN网络方法。
region proposal耗时成为object detection的瓶颈。
作者设计提出RPN网络，替代region proposal方法的同时，实现end-to-end网络。
rpn网络利用特征图实现region proposal，使得时间降低到10ms/张。
rpn利用“anchor”实现多尺度，多方向的变换。（论文中同时介绍了其他的方法，比如图像金字塔，但是感觉还是anchor比较实用）
为了保证rpn与fast rcnn的一致，作者提出了一种交替训练的方法。

二、Faster R-CNN详解

Faster RCNN整体结构采用Fast R-CNN，另外利用设计的RPN网络替代Selective Search方法实现region的生成，如下图所示：

这里写图片描述

图：faster r-cnn示意图

2.1 RPN 网络

RPN网络的输入为任意尺寸的图像，输出为一系列的矩形框以及是否为object的得分。

RPN网络采用n*n（默认n取3）的滑动窗口，首先通过卷积进行降维（实验默认是ZF-256维,VGG-512维），然后分别连接两个全连接层reg以及cls，实现回归与分类。

这里写图片描述

rpn结构示意图

2.1.1 anchor

对于每个滑动窗口，rpn网络预测k个region proposal区域，这样reg网络便产生4k个输出代表着坐标，cls产生2k个输出，代表在是否为object
k个不同大小的rp区域作者称之为anchor，faster r-cnn默认提取9个anchor，分别对应3个尺寸（作者默认为128，256，512），3个长宽比（作者默认为：1：1，1：2，2：1），如下是对应图像宽度缩放到600采用ZF网络时候对应的anchor的尺寸。

这里写图片描述
* 平移不变性。
* 相比较与multibox，采用本文方法的参数量大幅降低。
* multi-scale anchor，常用的多尺度方法如下，（a）为图像金字塔比较耗时，（b）为多尺度滤波器，本文选择方法（c）。

这里写图片描述

2.1.2 loss function

anchor 正负样本的分配：
* 与IOU重合度最大的标记被正样本
* 与IOU重合度大于70%的标记为正样本
* 与IOU重合度小于30%的标记为负样本。

loss function定于如下：
L(pi,ti)=1Ncls∑iLcls(pi,p∗i)+λ∑ip∗iLreg(ti,t∗i)

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。