阅读总结:Rich feature hierarchies for accurate object detection and semantic segmentation

R-CNN通过引入CNN特征,革新了物体检测领域,解决了传统方法mAP提升缓慢的问题。其创新点在于大规模预训练与小样本微调相结合,提升了检测精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为什么提出R-CNN:

1、以人工经验特征为主导的物体检测任务mAP提升缓慢.

2、ImageNet大规模视觉识别挑战赛中,采用CNN特征获得了最高的图像识别精确度,

3、引发了一股“是否可以采用CNN特征来提高当前一直停滞不前的物体检测准确率“的热潮

R-CNN的运行流程:

1、构造训练集(用于对CNN进行微调)

先用Selective Search的方法在每个图像上生成很多的候选区域(大约2000个类别独立的候选区域),然后在每张图上依次计算每个候选区域与图中目标的ground-truth box之前的重叠程度(IoU),如果重叠程度大于0.5则标记这个区域为此目标的正样本,否则,为负样本

2、训练CNN来抽取候选区域深度特征

先使用AlexNet的网络结构的CNN进行有监督预训练,之后用上述的数据集进行微调。微调时,先对候选区域进行了归一化(227*227),特征是通过前向传播通过五个卷积层和两个全连接层减去平均的224X224 RGB图像来计算的。输出结果修改了原来的1000为类别输出,改为21维【20类+背景】输出,训练的是网络参数。

3、训练集构造(用于训练多个SVM分类器)

本文的做法就是以每张图像上猫这个目标的GT Boxes作为正样本,然后在图像上生成很多候选区域,考察每个区域与猫目标的GT boxes之间的IoU,如果IoU小于0.3,那么就认定这个区域为负样本,重叠度在0.3~1之间的不用做训练.

4、为每个类训练一个binary SVM分类器

训练集里面的正样本和负样本都要使用上面已经训练好的CNN来提取各自的4960维度的特征向量,然后再对分类器进行训练.

5、使用Boundary-box regression的方法

作者在3.4节中使用了Boundary-box regression的方法进一步定位物体的,这样使得mAP提高了3~4个点。

我在阅读是遇到的问题:

1、我注意到在两次训练集的划分过程中,选择的IoU阈值不同,一个是0.5(用于对CNN进行微调),一个是0.3(用于训练多个SVM分类器)。作者在文章中解释原因是选择0.5和0都会导致结果的准确度下降,也就是说此处的0.3应该是人机交互的结果。但是对于0.5参数,作者没有指明为什么这样选择,虽然IoU的中间值是0.5,但有没有可能通过不同值的选择,得到更好的结果。

2、对于本文中使用的非极大值抑制的使用,文章解释是如果与他交叉重叠的候选区有着对某类有较高得分,且得分大于0.3,则该区域会被抑制。我对这句的理解不是很到位。是指所有大于阈值的有重叠的候选区,仅保留最大值候选区的意思吗?

我觉得本文的贡献

突破性的采用了CNN网络来提取图像的特征
大样本下有监督预训练,小样本下特征微调,解决了小样本难以训练的问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值