Fast RCNN算法详解

最新推荐文章于 2024-06-28 22:36:07 发布

mgmynL

最新推荐文章于 2024-06-28 22:36:07 发布

阅读量703

点赞数

分类专栏：目标检测

目标检测专栏收录该内容

11 篇文章

订阅专栏

Fast R-CNN 是 Ross Girshick 在2015年提出的一种改进的目标检测算法，相较于之前的 RCNN 方法，它通过简化流程、统一特征提取与分类回归等步骤，显著提高了检测速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.youkuaiyun.com/shenxiaolu1984/article/details/51036677

Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015.

继2014年的RCNN之后，Ross Girshick在15年推出Fast RCNN，构思精巧，流程更为紧凑，大幅提升了目标检测的速度。在Github上提供了源码。

同样使用最大规模的网络，Fast RCNN和RCNN相比，训练时间从84小时减少为9.5小时，测试时间从47秒减少为0.32秒。在PASCAL VOC 2007上的准确率相差无几，约在66%-67%之间.

思想

基础：RCNN

简单来说，RCNN使用以下四步实现目标检测：
a. 在图像中确定约1000-2000个候选框
b. 对于每个候选框内图像块，使用深度网络提取特征
c. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类
d. 对于属于某一特征的候选框，用回归器进一步调整其位置
更多细节可以参看这篇博客。

改进：Fast RCNN

Fast RCNN方法解决了RCNN方法三个问题：

问题一：测试时速度慢
RCNN一张图像内候选框之间大量重叠，提取特征操作冗余。
本文将整张图像归一化后直接送入深度网络。在邻接时，才加入候选框信息，在末尾的少数几层处理每个候选框。

问题二：训练时速度慢
原因同上。
在训练时，本文先将一张图像送入网络，紧接着送入从这幅图像上提取出的候选区域。这些候选区域的前几层特征不需要再重复计算。

问题三：训练所需空间大
RCNN中独立的分类器和回归器需要大量特征作为训练样本。
本文把类别判断和位置精调统一用深度网络实现，不再需要额外存储。

以下按次序介绍三个问题对应的解决方法。

特征提取网络

基本结构

图像归一化为224×224直接送入网络。

前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域（图像序号×1+几何位置×4，序号用于训练）？。
这里写图片描述

注：文中给出了大中小三种网络，此处示出最大的一种。三种网络基本结构相似，仅conv+relu层数有差别，或者增删了norm层。

roi_pool层的测试(forward)

roi_pool层将每个候选区域均匀分成M×N块，对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层。
这里写图片描述

roi_pool层的训练(backward)

首先考虑普通max pooling层。设xi” role=”presentation” style=”position: relative;”>xi为输出层的节点。

&#x2202;L&#x2202;xi={

博客等级

码龄10年

4
原创

9
点赞

9
收藏

8
粉丝

关注

私信

热门文章

分类专栏

目标检测 11篇
机器学习 2篇

上一篇：: 【RCNN系列】【超详细解析】

下一篇：: Faster RCNN

最新评论

SelectiveSearch算法
Elvirangel: 请问：关于这个函数 def _merge_regions(r1, r2): ''' 合并两个候选区域 args: r1：候选区域1 r2：候选区域2 return：返回合并后的候选区域rt ''' new_size = r1["size"] + r2["size"] rt = { "min_x": min(r1["min_x"], r2["min_x"]), "min_y": min(r1["min_y"], r2["min_y"]), "max_x": max(r1["max_x"], r2["max_x"]), "max_y": max(r1["max_y"], r2["max_y"]), "size": new_size, "hist_c": ( r1["hist_c"] * r1["size"] + r2["hist_c"] * r2["size"]) / new_size, "hist_t": ( r1["hist_t"] * r1["size"] + r2["hist_t"] * r2["size"]) / new_size, "labels": r1["labels"] + r2["labels"] } return rt 合并相似度最高的两个区域时，size为什么是2个候选区域的size直接相加？不应该减去有重叠的交集吗？还有新区域的坐标，是吧合并后的不规则区域强制扩大变成矩形框吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。