RCNN系列网络的理解

最新推荐文章于 2025-05-19 11:02:23 发布

wolfseek

最新推荐文章于 2025-05-19 11:02:23 发布

阅读量206

点赞数

文章标签：深度学习 RCNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wolfseek/article/details/133862304

版权

本文概述了RCNN系列（包括原始、FASTR-CNN、FASTERR-CNN和MaskRCNN）的目标检测方法，介绍了它们如何逐步优化计算效率和精度，以及在训练过程中的挑战。重点讨论了锚点机制、特征图处理和mask生成等关键技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

R-CNN 作者： Ross Girshick

FAST R-CNN 作者： Ross Girshick

FASTER R-CNN 作者： Jian Sun

MASK R-CNN 作者：kaiming he

一. RCNN

RCNN的基本思想是使用不同尺度的窗口在图像上滑动来截取ROI区域，再送入分类网络中对其识别，这些不同尺度的滑动窗口被称为anchor.

Anchor分为三个尺度和这种尺寸，也就是对图像上每个点产生9个anchor，然后对这些截取出来的图片缩放，缩放到统一尺寸后送入CNN网络。但这回引起庞大的计算量（对一张488*488尺寸的图像，将有488*488*9张anchor图像，）,所以需要先对anchor区域进行初判，区分出前景和背景，只对前景评分高的部分图片送入CNN中，最初这个判断前景和背景的工作是由SVM分类器完成的。

所以RCNN需要训练两部分，前景背景分类网络和目标检测网络。

二. FAST RCNN

FAST RCNN是对RCNN的升级，改进点：

RCNN对每个窗口计算一次CNN，FAST RCNN对整张图计算一次CNN，在计算中共享。即从特征图中裁剪ROI。
RCNN是由三个网络组合而成的，需要分别训练三个网络，FAST RCNN将其整合在一个模型中，使用更为方便。

三. FASTER RCNN

FASTER RCNN 是对FAST RCNN的优化，FAST RCNN使用滑动窗口技术实现，FASTER RCNN使用特征图生成预选窗口。使用预设的预选窗口（anchor）是存在一定缺陷的，不够紧贴目标，此处对anchor产生了一个修正值，使其使其更贴合检测目标。(它增加了一个3x3的网络和两个1x1的网络，在特征图上滑动窗口生成边界和分值，用来判断anchor的好坏，对好边界在送入后记处理)。

四. Mask RCNN

Mask RCNN是对faster RCNN的升级，在其之上增加了一个CNN网络，用于从featureMap中提取mask图像，最终应用到从像素级提取检测目标。

五. 备注

RCNN系列网络在输入图像上都是使用固定大小的图片如244X244或488X488，对任意图片输入都是缩放到这个尺寸上之后再送入网络。
RCNN系列它主网络是VGG或resnet。全新训练一个vgg网络本身就是一件困难的事情，我尝试在c++版本voc数据集+ libtorch + RTX2060上训练，网络规模智能到CNN网络的规模只能到256级别，上512就奔溃。陆续花费3天时间，训练了3万多次，正确率大约70%左右（没有使用预测数据集）。
FAST RCNN和FASTER RCNN都有一个裁剪特征图，并判断前景或背景的过程，这个动作会导致产生的tensor的大小和维度不一致，无法组合成更大维度的tensor。排查FASTER RCNN的实现代码发现，它是先裁剪然后对前景分值排序，筛选出分值最高的300个或2000个。
从个人的体验上，裁剪原图整个网络运行速度比裁剪特征图还快不少。特征图本身数据量比原图大的多裁剪也费时，我的裁剪代码是在CPU上裁剪的，存在数据从CPU到GPU的传输。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wolfseek 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。