目标检测值faster rcnn、SSD和yolo系列的样本标定

本文链接：https://blog.youkuaiyun.com/xiaotian127/article/details/104661466

本文详细解析了FasterRCNN、SSD及YOLO系列目标检测算法中的正负样本标定原则，包括RPN流程、match策略、NMS处理及Anchor使用，为深度学习目标检测提供理论指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、faster rcnn的正负样本标定原则

2、SSD中的正负样本标定原则

3、YOLO系列的标定原则

4、三个网络的Anchor详解

1、faster rcnn的正负样本标定原则

主要是体现在faster rcnn中的RPN中，标定原则（RPN流程）如下：

最后一个卷积层输出的特征图再进行一次卷积后得到新的特征图（这是针对RPN前的CNN后得到的特征图进行的）；
新的feature map的平面上有 $40 \times 60=2400$ 个点，每个点都可以对应到原始的特征图上，得到9个anchor，所以总共可以得到 $40 \times 60\times9$ 个候选区域（大约20000个左右）（超出边界的候选区域限定在边界处）；
通过softmax计算得到所有候选区域的scores；
选出scores最大的12000个候选区域；
这些区域中有些候选区域与其他区域有大量重叠，所以采用NMS，固定NMS的阈值为0.7，过滤掉一些候选区域；再选出scores最大的2000个候选区域，这2000个候选区域如果与某个标定区域（GT）的IOU大于0.7，则记为正样本，如果与任意一个标定区域的IOU小于0.3，则记为负样本，其余的区域不作为样本。
在训练RPN层分类回归任务时，会随机抽取256个区域进行训练，正负候选区域的比例为1:1，如果正样本数小于128，用负样本填充；
（这指的是最后一步，不是RPN中的）训练最后输出的分类回归任务时，随机抽取64个与真实标注框IOU大于等于0.5的区域作为前景，256-64个IOU小于0.5且大于0.1的区域作为背景进行训练

2、SSD中的正负样本标定原则

主要是match策略的细节(SSD300中通过“特征金字塔”，结合了6层特征图，共得到8732个预选框)。（参考：08《SSD: Single Shot MultiBox Detector》论文学习笔记）

将默认框和真实框(ground truth box)按IOU进行匹配，匹配成功则这个默认框就是正样本(positive example)，如果匹配不上，就是负样本(negative example)，论文中作者选用的IOU为0.5

在training中，GT boxes与prior boxes按照以下方式进行配对：先寻找每一个与GT boxes有最大IOU的prior boxes，以保证每一个GT boxes与唯一的prior boxes对应起来；SSD之后再将剩余的没有配对的prior boxes与任意的GT boxes配对，只要IOU大于阈值，就认为match（SSD300的阈值为0.5），配对到GT的prior box就是positive，没有配对到的为negative。

SSD算法中的Hard negative mining：一般情况下negative default boxes数量要远远大于positive default boxes的数量，直接训练会导致网络过于重视负样本，从而loss不稳定。所以SSD在抽样时按照置信度误差（置信度越大，误差越小）降序排列，选取误差较大的top_k作为训练的负样本，控制positive:negative=1:3

3、YOLO系列的标定原则

YOLO-v1共得到 $7 \times 7 \times 2=98$ 个边界框（bounding boxes），最后输出为7*7*(2*5+20类)；YOLO-v2共得到 $13 \times 13 \times 5$ 个边界框，最后输出13*13*(5*(5+20类))；YOLO-v3共得到 $3 \times (13 \times 13 + 26 \times 26 + 52 \times 52)$ 个边界框（因为应用了多尺度的方法，每个尺度对应3个不同尺寸的anchor box）。用为YOLO系列中是目标的中心落在那个网格内，该网格则负责检测该物体，所以不用进行正负样本的标定，直接用NMS进行处理即可，如下：