rcnn

参考:http://blog.youkuaiyun.com/shenxiaolu1984/article/details/51066975

RCNN算法分为4个步骤 :

1、一张图像生成1K~2K个候选区域 

2、对每个候选区域,使用深度网络提取特征 

3、特征送入每一类的SVM 分类器,判别是否属于该类 

4、使用回归器精细修正候选框位置 


1、一张图像生成1K~2K个候选区域 

使用了Selective Search方法从一张图像生成约2000-3000个候选区域。基本思路如下: 
- 使用一种过分割手段,将图像分割成小区域 
- 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置 
- 输出所有曾经存在过的区域,所谓候选区域

候选区域生成和后续步骤相对独立,实际可以使用任意算法进行。

合并规则:

优先合并以下四种区域: 
- 颜色(颜色直方图)相近的 
- 纹理(梯度直方图)相近的 
- 合并后总面积小的 
- 合并后,总面积在其BBOX中所占比例大的

第三条,保证合并操作的尺度较为均匀,避免一个大区域陆续“吃掉”其他小区域。

例:设有区域a-b-c-d-e-f-g-h。较好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。 
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四条,保证合并后形状规则。

例:左图适于合并,右图不适于合并。 
这里写图片描述

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来,速度较快。


2、对每个候选区域,使用深度网络提取特征 

1)预处理

使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227×227。 
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。

2)预训练

网络结构 
基本借鉴Hinton 2012年在Image Net上的分类网络2,略作简化3。 
这里写图片描述 
此网络提取的特征为4096维,之后送入一个4096->1000的全连接(fc)层进行分类。 
学习率0.01。

训练数据 
使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。

3)调优训练

网络结构 
同样使用上述网络,最后一层换成4096->21的全连接网络。 
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。

4)训练数据 
使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。 
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。


3、特征送入每一类的SVM 分类器,判别是否属于该类 

分类器 
对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。 
由于负样本很多,使用hard negative mining方法。 
正样本 
本类的真值标定框。 
负样本 
考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本


4、使用回归器精细修正候选框位置 

目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。 
回归器 
对每一类目标,使用一个线性脊回归器进行精修。正则项 λ=10000 。 
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。 
训练样本 
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。


5、结果

论文发表的2014年,DPM已经进入瓶颈期,即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域,一举将PASCAL VOC上的检测率从35.1%提升到53.7%。 
本文的前两个步骤(候选区域提取+特征提取)与待检测类别无关,可以在不同类之间共用。这两步在GPU上约需13秒。 
同时检测多类时,需要倍增的只有后两步骤(判别+精修),都是简单的线性运算,速度很快。这两步对于100K类别只需10秒。

以本论文为基础,后续的fast RCNN4(参看这篇博客)和faster RCNN5(参看这篇博客)在速度上有突飞猛进的发展,基本解决了PASCAL VOC上的目标检测问题。


03-08
### RCNN 深度学习算法介绍 #### 定义与背景 RCNN(Region-based Convolutional Neural Networks)是一种用于目标检测的方法,该方法结合了区域提议和卷积神经网络的优势。这种方法最初由Ross Girshick等人提出,并在《Rich feature hierarchies for Accurate Object Detection and Segmentation》这篇论文中进行了详细介绍[^4]。 #### 工作流程 RCNN 的工作流程可以分为几个主要阶段: 1. **候选区域生成** 使用Selective Search等无监督的方式从输入图像中提取大约2000个类别独立的候选框(region proposals),这些候选框覆盖了可能存在的对象位置和尺度变化。 2. **特征抽取** 对于每个候选框内的子图,调整大小到固定尺寸并送入预训练好的CNN(如AlexNet)获取深层特征向量。这一过程对于每张图片都需要重复约两千次,因此计算成本较高。 3. **SVM分类应用** 利用支持向量机(Support Vector Machine, SVM)对上述得到的特征向量进行分类判断属于哪个类别的概率分布情况;同时还会有一个回归分支用来微调边界框的位置参数以更好地贴合真实标签。 4. **非极大值抑制(NMS)** 鉴于同一物体可能会被多个重叠较高的候选窗口捕捉到,所以最后一步是非最大抑制操作去除冗余预测结果只保留最有可能的那个矩形框作为最终输出。 #### 局限性分析 尽管RCNN取得了显著成果,但也存在一些局限之处: - 计算效率低下:因为要针对每一个候选区单独执行前向传播运算,整体耗时较长; - 存储需求高:需要保存大量中间层激活映射供后续步骤使用; - 复杂的数据准备环节增加了实现难度。 随着技术的发展,后来出现了Fast R-CNN、Faster R-CNN等一系列改进版本,在保持甚至提升性能的同时大幅降低了运行时间和资源消耗[^3]。 ```python import torch from torchvision.models.detection import fasterrcnn_resnet50_fpn model = fasterrcnn_resnet50_fpn(pretrained=True) model.eval() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值