细讲：RCNN、Fast R-CNN和Faster R-CNN_fast rcnn是单阶段还是两阶段模型-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39994739/article/details/123111095

本文详细介绍了RCNN系列的目标检测模型，包括R-CNN、Fast R-CNN和Faster R-CNN。R-CNN采用Selective search生成region proposal，然后利用CNN和SVM进行分类和边界框回归。Fast R-CNN通过共享卷积层计算提升了效率，使用RoI pooling和SVD加速计算。Faster R-CNN引入了RPN网络，实现了端到端的训练，显著提高了region proposal的速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

R-CNN

R-CNN模型结构

R-CNN是一种two-stage的目标检测模型，one-stage 中Region Proposal采用Selective search，two-stage 的分类采用CNN(AlexNet)提取特征+FC，然后使用SVM分类。
在这里插入图片描述

one-stage ：Region Proposal

one-stage直接使用Selective search生成大约2K的窗口。测试的时候会使用NMS去掉IOU比较高的的region。

Selective search

步骤：

通过 Efficient Graph-Based Image Segmentation 算法生成最初的小初始化原始区域
我们使用贪心策略，计算每两个相邻的区域的相似度。
每次合并最相似的两块，直到最终只剩下一块完整的图片。
这其中每次产生的图像块包括合并的图像块我们都保存下来，这样就得到图像的分层表示。
给予最先合并的图片块较大的权重，比如最后一块完整图像权重为1，倒数第二次合并的区域权重为2以此类推。R-CNN中采用Selective Search Fast，分别用了HSV和Lab两种颜色空间，然后使用了C+T+S+F和T+S+F两种相似度计算方法，由于是2中策略，每一种策略里的region都会有个分，2种策略就会存在两个region相同分。因此，每个region的分数会乘以一个随机数(region被选择看运气)，然后对于相同的区域多次出现的也叠加下权重。这样我就得到了所有区域的目标分数，也就可以根据自己的需要选择需要多少个区域了。(实际在选择的时候从了按分数高到低，还会考虑边长、面积的阈值)

相似度的计算方法：
将原始色彩空间转换到多达八种的色彩空间。然后通过多样性的距离计算方式，综合颜色、纹理等所有的特征。
在这里插入图片描述
1.颜色距离： $s_{colour}(r_i,r_j)=\sum^n_{k=1}min(c_i^k,c_j^k)$
就是各个通道计算颜色直方图，然后取各个对应bins的直方图最小值，合并后直方图大小加权区域大小然后除以总区域大小就可以得到合并后的图的颜色直方图
2.纹理距离： $s_{texture}(r_i,r_j)=\sum^n_{k=1}min(t_i^k,t_j^k)$
计算每个区域的快速sift特征，其中方向个数为8，3个通道中每个通道bins为10，对于每幅图像得到240维的纹理直方图，然后通过上式计算距离
3.优先合并小的区域： $s_{size}(r_i,r_j)=1-\frac{size(r_i)-size(r_j)}{size(im)}$
给小的区域更多的权重，这样保证在图像每个位置都是多尺度的在合并。避免通过颜色和纹理特征合并会很容易使得合并后的区域不断吞并周围的区域，导致多尺度只应用在了那个局部，而不是全局的多尺度。
4.区域的合适度距离： $fill(r_i,r_j)=1-\frac{size(BB_{ij})-size(r_i)-size(r_j)}{size(im)}$
不仅要考虑每个区域特征的吻合程度，区域的吻合度也是重要的，吻合度的意思是合并后的区域要尽量规范，不能合并后出现断崖的区域，这样明显不符合常识，体现出来就是区域的外接矩形的重合面积要大。
5.综合各种距离： $s(r_i,r_j)=a_1s_{colour}(r_i,r_j)+a_2s_{texture}(r_i,r_j)+a_3s_{size}(r_i,r_j)+a_4fill(r_i,r_j)$