RCNN相关概念总结

RCNN(Region CNN)是深度学习目标检测的开创性工作,通过Selective Search生成候选区域,使用深度网络提取特征,并通过SVM进行分类和边界框精修。RCNN在ImageNet预训练,PASCAL VOC调优,显著优于传统算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文结合此博文根据自己理解进行概念总结。


目标识别与检测的区别:

识别只需知道属于哪一类,检测需要知道属于哪一类以及具体位置。

 

RCNN

Ø Region CNNRCNN)背景与意义

Ross Girshick研究出RCNN,可以说是利用深度学习进行目标检测的开山之作。

 

Ø 与经典目标检测算法比较

相对于DPM算法,效果提高显著。

 

Ø 候选区特征提取方法

经典目标检测算法:人工设定特征(如:HaarHOG

RCNN:深度网络

 

Ø 可供使用的数据库

识别库(ImageNet ILSVC 2012):一千万张图像,1000类。标定每张图片中物体的。用于预训练

检测库(PASCAL VOC 2007):一万张图像,20类。标定每张图片中物体的位置。用于调优参数评测

 

Ø Selective Search

选择性搜索(Selective Search):

1、生成的区域集S1

2、相似度最高的两个区域进行合并,添加到R中;

3、S1中删除合并中的相关子集;

4、计算新的区域集S2

5、S2中重复操作2-4,直到区域集为空。


区域集产生方式:一张图像中,每个像素为一个顶点,连线为边,生成最小生成树的顶点为一个区域。


相似度:为颜色、纹理、尺寸、交叠四种相似度分别乘以不同的系数求和得到。


Ø 候选区生成

利用Selective Search在多个颜色空间(HSVRGBLab等),同时进行上述四个规则操作,得到所有区域后删除重复,得到候选区域。

将所有存在过的区域输出,一张图约生成2000~3000个候选区域。

 

Ø 特征提取

1、候选区域归一化尺寸:227×227

2、预训练网络结构:

 

学习率0.01,提取特征4096维,输出1000维的类别标号

3、调优训练网络结构:

与预训练的区别在最后一层从输出1000维变为21维,表示20+背景。学习率0.001

 

Ø 类别判断

1、分类器

分类器:SVM;输入:4096维特征;输出:是否属于此类

 

2、正负样本

正样本:本类的真值标定框

负样本:考察每一个候选框,若和本类的所有标定框重叠都小于0.3,则为负样本

 

3、hard negative mining方法

在进行训练时,会用到hard negative mining方法。在一开始训练时,会随机一批与正样本没有任何重叠的标记框,形成负样本。但在训练后得出的结果往往会标记出很多错误分类。

通过hard negative方法会在错误的检测中创建一个负样本,添加到训练集中。当重新训练分类器时,效果就会更好。

 

4、类别判断

一个候选框和当前图像上所有标定框重叠面积最大的一个。若重叠比例大于0.5,则认为此候选框为此标定的类,否则认为是背景。

 

Ø 位置精修

1、线性脊回归器

正则项λ=10000。输入:pool5层的4096维特征;输出:xy方向的缩放和平移。

 

2、训练样本

判定为本类的候选框中,与真值重叠面积大于0.6的候选框。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值