目标检测R-CNN系列简要总结(RCNN, FastRCNN, FasterRCNN)

原创已于 2024-03-05 17:54:15 修改 · 1.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #深度学习 #目标检测 #计算机视觉 #人工智能

于 2022-04-30 01:45:49 首次发布

目标检测专栏收录该内容

11 篇文章

订阅专栏

本文介绍了目标检测算法的发展，从R-CNN开始，它使用CNN提取特征，结合传统机器学习方法进行分类和定位。R-CNN效率低下，Fast R-CNN通过共享特征提取提高了速度。最后，Faster R-CNN引入区域提议网络（RPN）进一步加速，将候选框生成与检测结合在一个网络中。文章还详细讨论了各种损失函数和优化方法。

R-CNN： Region with CNN feature，是一个双阶段目标检测算法系列。
内容基于 b站霹雳吧啦Wz 博主，讲的很好，这里只是做简要总结。

R-CNN：

只有Feature extraction是CNN，其他是传统的机器学习方法。

关键步骤：

SS得到约2k个候选区域
将约2k个候选区域分别使用AlexNet提特征，
将提的特征用SVM做分类（假设分类20类，即voc数据集的类别数）。然后对每一类使用NMS，得到每一类得分最高的一些建议框。
训练时，进一步筛选（将NMS后建议框与groundtruth IoU较低的框删掉），然后再使用20个回归器对剩余的建议框对应的cnn特征图进行回归操作（L2 loss），以进行修正。

最下方的流程图是SS-CNN-SVM的分类过程：↓
存在的问题：
predict很慢，cpu上一张图约53s，且SS后的候选框有大量冗余
训练很慢很繁琐
对SVM和回归器的训练需要将cnn得到的特征保存下来，所以占用硬盘空间很大，上百G。

Fast R-CNN：

除SS算法外，特征提取、分类以及回归使用一个CNN网络实现。
且其不对每个SS后的候选框做特征提取，而是对整幅图做特征提取生成特征图，然后将候选框位置映射到特征图上，获得候选框所对应的特征图。大大减少了运算量。比R-CNN快200倍以上。
在这里插入图片描述

关键步骤：

SS操作后对2k候选区域筛选64个感兴趣区域（正样本+负样本）进行训练。
RoI Pooling Layer：将候选区域图像划分为7*7共49个小区域（这样对候选区域无需做resize），然后对每个小区域做maxpooling。
将RoI的输出做flatten并使用并联的FC层分别做分类和回归。其中分类器的最终节点有N+1个，即前景类别数量+背景；回归器有（N+1）*4个节点，4代表对x,y,w,h四个量的预测，N+1代表每个类都有单独的边界框回归。

损失loss：分类损失使用CE（Cross Entropy） loss，回归使用smooth L1 loss。[u≥1]是艾弗森括号，其中u代表该候选区域的真实标签 (0代表背景，1-N代表前景的类），当u≥1时[u≥1]=1，u≤1时[u≥1]=0，即只将前景的回归损失计入。
在这里插入图片描述
其中回归的损失：

L1因为在最低点是不可导的，所以势必不会收敛到最低点，可能会在最优解附近震荡，而L2则是可以缓慢收敛至最优解的。从上图可以看出，该函数实际上就是一个分段函数，在[-1,1]之间实际上就是L2损失，这样解决了L1的不光滑问题，在[-1,1]区间外，实际上就是L1损失，这样就解决了离群点梯度爆炸的问题

Faster R-CNN：

Fast R-CNN的速度瓶颈在SS算法，所以新作针对候选框的生成进行改进。

在这里插入图片描述 FasterRCNN = RPN+ FastRCNN（之前使用的SS算法，现在替换成RPN），即本作的重点就是RPN网络。其中k是anchor boxes的数量，RPN（Region Proposal Net）结构: RPN
其中关于RPN的感受野该博主在VGG视频中有讲。还会对anchor boxes进行一些筛选操作：在这里插入图片描述
其中训练时需要对anchor boxes进行正负样本的采样，每张图取256个样本，其中正负样本比大概1:1。正样本取与ground truth 的IoU超过阈值（论文取0.7）的（没有超过阈值的就取最大的），负样本取与与所有ground truth的IoU小于0.3的。