R-CNN, FastR-CNN, FasterR-CNN总结与比较

最新推荐文章于 2025-02-19 14:54:15 发布

Fan72

最新推荐文章于 2025-02-19 14:54:15 发布

阅读量2.2k

点赞数 1

分类专栏： Learning notes Object Detection

本文链接：https://blog.youkuaiyun.com/fzp95/article/details/89885957

版权

Learning notes 同时被 2 个专栏收录

21 篇文章

订阅专栏

Object Detection

2 篇文章

订阅专栏

博客介绍了R-CNN、Fast R-CNN和Faster R-CNN三种目标检测算法。R-CNN通过selective search选RoI，用CNN提取特征，SVM分类；Fast R-CNN卷积共享提升速度，但找RoI耗时；Faster R-CNN用RPN代替传统方法产生候选框，还介绍了RPN的结构和训练细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. R-CNN

Rich feature hierarchies for accurate object detection and semantic segmentation [CVPR14] pdf
在这里插入图片描述

在输入图片上通过selective search方法选择RoI，也就是Region Proposal（候选框），R-CNN中的R就来自于这个词。
对于每个proposal，通过CNN提取特征
对于提取的特征，bbox回归确定边界框位置，SVM用来做分类确定目标的类别。

R-CNN问题：

要有专门的训练目标函数：log loss, hinge loss, least squares
训练麻烦而且时间长
推断过程也很慢

对于每个候选区域用一个CNN，后来出现的SPPNet解决了输入尺寸不确定的问题：
在这里插入图片描述
SPPNet提出了空间金字塔池化，将输出不同尺寸的feature map通过SPP层变成固定的长度的全连接层输入

2. Fast R-CNN

Fast R-CNN [ICCV15] pdf
在这里插入图片描述

用一个convnet施加在输入图片上（卷积共享，提升速度）。
在这个convnet输出的feature map上找到输入图片上对应的RoI，特征图上的区域就是输入图像上RoI的特征。
将这些区域的特征分别通过RoI pooling层（借鉴SSPNet的思想），变成固定长度的全连接层输入
分类和回归也放入到网络中去。

Fast R-CNN问题：

图像进入网络之前还需要在CPU上用传统算法ss找RoI，这步操作占据了检测时间的大部分，差不多两秒。

3. Faster R-CNN

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [NIPS15] pdf 在这里插入图片描述

用一个convnet施加在原始输入图片上
在这个convnet输出的feature map上施加一个Region Proposal Network (RPN)，用来代替之前在原始图像上的传统方法。产生很多个候选框。RPN后接也两个loss，classification loss为二分类，判断这个框是不是物体，用来过滤不要的候选框，bbox regression loss微调给定的边框，使之anchor box可以更接近gt的框。
后面的步骤和RCNN一样，classification loss为多分类。

RPN

在这里插入图片描述

经过VGG或者ZFNet产生的特征图作为RPN的输入。
在特征图上执行3x3的滑窗操作，每个滑窗对应的区域映射为低维特征(256-d for ZF and 512-d for VGG, with ReLU following)，后接两个全连接分支：一个分类一个回归。
每个3x3滑窗的中心，在原始图像上对应的感受野上有 $k$ 个anchor boxes（论文中是9个：3个尺度和对应的3个长宽比），所以每个滑窗会得到2k个分类结果和4k个回归结果。
假如特征图大小有 $W\times H$ ，则会产生 $W\times H\times k$ 个anchors.
论文输出特征图60x40，大概要2w个框
RPN具有平移不变性

训练RPN

为了训练RPN，需要对每个anchor构造一个二分类的label，即这个框是不是物体。
标记为正标签：i)跟gt的IOU最大的框为正. ii)跟gt的IOU大于0.7的为正。
标记为负标签：跟gt的IOU小于于0.3的为负。大于0.3小于0.7的对损失函数不做贡献。
损失函数：
在这里插入图片描述
$L_{cls}$ ：log loss,
$L_{reg}$ ：smooth L1.
$\lambda =10$
回归的损失求的是预测和真实之间一种变换的因子， $t_i$ , $t_i^*$ 由下面公式给出：