阅读总结：Rich feature hierarchies for accurate object detection and semantic segmentation

最新推荐文章于 2024-04-26 21:45:01 发布

Jason _ W

最新推荐文章于 2024-04-26 21:45:01 发布

阅读量332

点赞数

CC 4.0 BY-SA版权

分类专栏： paper阅读总结文章标签：机器学习深度学习计算机视觉人工智能图像识别

本文链接：https://blog.youkuaiyun.com/wcx0602/article/details/106976657

paper阅读总结专栏收录该内容

2 篇文章

订阅专栏

R-CNN通过引入CNN特征，革新了物体检测领域，解决了传统方法mAP提升缓慢的问题。其创新点在于大规模预训练与小样本微调相结合，提升了检测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么提出R-CNN：

1、以人工经验特征为主导的物体检测任务mAP提升缓慢.

2、ImageNet大规模视觉识别挑战赛中，采用CNN特征获得了最高的图像识别精确度，

3、引发了一股“是否可以采用CNN特征来提高当前一直停滞不前的物体检测准确率“的热潮

R-CNN的运行流程：

1、构造训练集(用于对CNN进行微调)

先用Selective Search的方法在每个图像上生成很多的候选区域(大约2000个类别独立的候选区域),然后在每张图上依次计算每个候选区域与图中目标的ground-truth box之前的重叠程度(IoU),如果重叠程度大于0.5则标记这个区域为此目标的正样本,否则,为负样本

2、训练CNN来抽取候选区域深度特征

先使用AlexNet的网络结构的CNN进行有监督预训练，之后用上述的数据集进行微调。微调时，先对候选区域进行了归一化（227*227），特征是通过前向传播通过五个卷积层和两个全连接层减去平均的224X224 RGB图像来计算的。输出结果修改了原来的1000为类别输出，改为21维【20类+背景】输出，训练的是网络参数。

3、训练集构造(用于训练多个SVM分类器)

本文的做法就是以每张图像上猫这个目标的GT Boxes作为正样本,然后在图像上生成很多候选区域,考察每个区域与猫目标的GT boxes之间的IoU,如果IoU小于0.3,那么就认定这个区域为负样本,重叠度在0.3~1之间的不用做训练.

4、为每个类训练一个binary SVM分类器

训练集里面的正样本和负样本都要使用上面已经训练好的CNN来提取各自的4960维度的特征向量,然后再对分类器进行训练.

5、使用Boundary-box regression的方法

作者在3.4节中使用了Boundary-box regression的方法进一步定位物体的，这样使得mAP提高了3~4个点。

我在阅读是遇到的问题：

1、我注意到在两次训练集的划分过程中，选择的IoU阈值不同，一个是0.5（用于对CNN进行微调），一个是0.3（用于训练多个SVM分类器）。作者在文章中解释原因是选择0.5和0都会导致结果的准确度下降，也就是说此处的0.3应该是人机交互的结果。但是对于0.5参数，作者没有指明为什么这样选择，虽然IoU的中间值是0.5，但有没有可能通过不同值的选择，得到更好的结果。

2、对于本文中使用的非极大值抑制的使用，文章解释是如果与他交叉重叠的候选区有着对某类有较高得分，且得分大于0.3，则该区域会被抑制。我对这句的理解不是很到位。是指所有大于阈值的有重叠的候选区，仅保留最大值候选区的意思吗？