论文笔记：Fast R-CNN

CvBeginner

于 2019-10-03 17:45:51 发布

阅读量127

点赞数

分类专栏：论文笔记文章标签：目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39952791/article/details/101919567

版权

论文笔记专栏收录该内容

19 篇文章

订阅专栏

FastR-CNN是一种改进自R-CNN的目标检测方法，通过整合特征提取、分类和边框回归于同一网络中，实现高效准确的目标检测。该方法采用RoIPooling层统一不同大小的候选区域，并通过多任务损失函数进行联合训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文笔记：Fast R-CNN

1. 简介

这是ICCV 2015的一篇论文，这篇论文改进了R-CNN和SSP网络进行目标检测，实现了更快速且更精确的目标检测。

2. 动机

此前的R-CNN网络效率很低，主要体现在：

训练分为多个阶段进行。
训练过程的时间和空间消耗都特别大
目标检测过程很慢

3. 方法

区域提取沿用之前R-CNN的方法，后续的提取特征、判断类别、回归边框在同一个网络完成
使用RoI Pooling，将每个proposal的映射池化到相同的尺寸作为全连接层输入，从而提取特征
对于提取到的特征，通过一对sibling网络，分别将特征向量进行全连接+softmax和全连接，计算得到分类和边框回归偏置。

在这里插入图片描述

RoI pooling

对于一个尺寸为 $\times w$ 的proposal，通过 $h/H \times w/W$ 尺寸的最大池化，将其变成 $\times W$ 大小的特征图（这样的话所有尺寸的RoI池化后的大小都一样了），从而方便下一步的全连接层进行处理。

多任务训练loss定义

$L(p,u,t^u,v) = L_{cls}(p,u) + \lambda [u \geq 1] L_{loc}(t^u,v)$
其中
$L_{cls}(p,u) = -logP_u$ ， $L_{loc} = L_1smooth(t^u - v)$ ， $\geq 1]$ 表示 $\geq 1$ 时为1否则为0，也就是类别为“背景”时不计算位置loss。

mini-batch采样

fine-tune时每个batch只输入两张图片共128个Proposals，每张图64个Proposal，加快训练速度。

Truncated SVD

将一个 $\times v$ 的全连接换成两个 $\times t$ 和一个 $\times v$ 的全连接。当 $t < < m i n (u, v)$ 时，可以大幅减少计算。

fine-tune 选择

不fine-tune所有layer，因为前几层fine-tune与否几乎不影响mAP，但是会拖慢训练速度，因此fine-tune从第3层开始（conv 3_1）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。