【目标检测】对SSD论文的一些理解

最新推荐文章于 2024-08-13 08:48:12 发布

张学渣

最新推荐文章于 2024-08-13 08:48:12 发布

阅读量961

点赞数 2

CC 4.0 BY-SA版权

分类专栏：目标检测

本文链接：https://blog.youkuaiyun.com/qq_36302589/article/details/84989392

目标检测专栏收录该内容

30 篇文章

订阅专栏

SSD，单阶段检测器，提升了检测速度与精度。通过在不同层级的特征图上生成一系列离散化的边界框，结合NMS算法，实现高效目标检测。引入数据增强与Hard Negative Mining技术，提高模型鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SSD，单阶段检测器，在提高了速度的同时又保证了检测的精度，相较两阶段检测器（rcnn系列），SSD完全取消了区域生成，ROI重采样等步骤，便于训练与优化。

SSD 将输出一系列离散化（discretization）的 bounding boxes，这些 bounding boxes 是在不同层次（layers）上的 feature maps 上生成的，并且有着不同的 aspect ratio。

论文贡献：

1.引入了一种单阶段的检测器，比以前的yolo算法更快更准，没有使用RPN与ROI polling

2.使用一个小的滤波器在不同size的 feature map层预测bouding box的类别和偏差，从而获得高精度的检查结果

3.可以在更小的输入图片中获得更好的结果，同时，这个整体 end-to-end 的设计，训练也变得简单。在检测速度、检测精度之间取得较好的 trade-off。

4.在多个数据集上获得了更高的mAp

一算法步骤

二模型

1. default box、feature map cell

2. Hard Negative Mining技术

3.hole filling algorithm

一算法步骤

SSD是基于一个前向传播CNN网络，产生一系列固定个数的BB，每一个BB中包含物体的可能性，最后通过非极大值抑制得到最终的结果。

1.输入一张图片（300*300），将其输入到预训练好的网络中获得不同大小的特征映射，对于VGG16，将VGG16的FC6与FC7修改为卷积层，如上图的Conv6、Conv7，去掉了所有的Dropout层和FC8层，添加了hole算法，将Pool5从2x2-S2变换到3x3-S1。

2.抽取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层的feature map，然后分别在这些feature map层上面的每一个点构造n个（3或6）不同尺度大小的BB。

3.将不同将不同feature map获得的BB结合起来，经过NMS（非极大值抑制）方法来抑制掉一部分重叠或者不正确的BB，生成最终的BB集合（即检测结果）；

二模型

1. default box、feature map cell

这里，先弄清楚下文所说的 default box 以及 feature map cell 是什么。看下图：

feature map cell 就是将 feature map 切分成 8×8 或者 4×4 之后的一个个格子；

而 default box 就是每一个格子上，一系列固定大小的 box，即图中虚线所形成的一系列 boxes。

这里写图片描述、

SSD中的Defalut box和Faster-rcnn中的anchor机制很相似。就是预设一些目标预选框，后续通过softmax分类+bounding box regression获得真实目标的位置。对于不同尺度的feature map 上使用不同的Default boxes。如上图所示，我们选取的feature map包括38x38x512、19x19x1024、10x10x512、5x5x256、3x3x256、1x1x256，Conv4_3之后的feature map默认的box是4个，我们在38x38的这个平面上的每一点上面获得4个box，那么我们总共可以获得38x38x4=5776个；同理，我们依次将FC7、Conv8_2、Conv9_2、Conv10_2和Conv11_2的box数量设置为6、6、6、4、4，那么我们可以获得的box分别为2166、600、150、36、4，即我们总共可以获得8732个box，然后我们将这些box送入NMS模块中，获得最终的检测结果。

2.Defalut box生成规则

以feature map上每个点的中点为中心（offset=0.5），生成一系列同心的Defalut box（然后中心点的坐标会乘以step，相当于从feature map位置映射回原图位置）使用m(SSD300中m=6)个不同大小的feature map 来做预测，最底层的 feature map 的 scale 值为 Smin=0.2，最高层的为Smax=0.95，其他层通过下面的公式计算得到：

使用不同的ratio值，[1, 2, 3, 1/2, 1/3]，通过下面的公式计算 default box 的宽度w和高度h

而对于ratio=0的情况，指定的scale如下所示，即总共有 6 中不同的 default box。

3.loss计算

训练中一张完整的图片送进网络获得各个feature map，对于正样本训练来说，需要先将prior box与ground truth box做匹配，匹配成功说明这个prior box所包含的是个目标，但离完整目标的ground truth box还有段距离，训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。

举个列子：假设一个训练样本中有2个ground truth box，所有的feature map中获取的prior box一共有8732个。那个可能分别有10、20个prior box能分别与这2个ground truth box匹配上。训练的损失包含定位损失和回归损失两部分。总之，回归部分的loss是希望预测的box和prior box的差距尽可能跟ground truth和prior box的差距接近，这样预测的box就能尽量和ground truth一样。

上面得到的8732个目标框经过Jaccard Overlap筛选剩下几个了；其中不满足的框标记为负数，其余留下的标为正数框。紧随其后：

训练过程中的 prior boxes 和 ground truth boxes 的匹配，基本思路是：让每一个 prior box 回归并且到 ground truth box，这个过程的调控我们需要损失层的帮助，他会计算真实值和预测值之间的误差，从而指导学习的走向。

SSD 训练的目标函数（training objective）源自于 MultiBox 的目标函数，但是本文将其拓展，使其可以处理多个目标类别。具体过程是我们会让每一个 prior box 经过Jaccard系数计算和真实框的相似度，阈值只有大于 0.5的才可以列为候选名单；假设选择出来的是N个匹配度高于百分之五十的框吧，我们令 i 表示第 i个默认框，j表示第 j个真实框，p表示第p个类。那么x_{ij}^p表示第 i 个 prior box 与类别 p 的第 j 个 ground truth box 相匹配的Jaccard系数，若不匹配的话，则x_{ij}^p=0。总的目标损失函数（objective loss function）就由 localization loss（loc）与 confidence loss（conf）的加权求和：

三 SSD提高精度的方法

1. 数据增强

如上图所示，不同于Faster-rcnn，SSD算法使用了多种数据增强的方法，包括水平翻转、裁剪、放大和缩小等。论文明确指出，数据增强可以明显的提高算法的性能。主要的目的是为了使得该算法对输入的不同大小和不同形状的目标具有更好的鲁棒性。直观的理解是通过这个数据增强操作可以增加训练样本的个数，同时构造出更多的不同形状和大小的目标，将其输入到网络中，可以使得网络学习到更加鲁棒的特征。

2. Hard Negative Mining技术

将prior box和 grount truth box 按照IOU（JaccardOverlap）进行匹配，匹配成功则这个prior box就是positive example（正样本），如果匹配不上，就是negative example（负样本），显然这样产生的负样本的数量要远远多于正样本。这里将前向loss进行排序，选择最高的num_sel个prior box序号集合 D。那么如果Match成功后的正样本序号集合P。那么最后正样本集为 P - Dcap{P}，负样本集为 D - Dcap{P}。同时可以通过规范num_sel的数量（是正样本数量的三倍）来控制使得最后正、负样本的比例在 1：3 左右。

1.正样本获得

我们已经在图上画出了prior box，同时也有了ground truth，那么下一步就是将prior box匹配到ground truth上，这是在 src/caffe/utlis/bbox_util.cpp的 FindMatches以及子函数MatchBBox函数里完成的。值得注意的是先是从groudtruth box出发给每个groudtruth box找到了最匹配的prior box放入候选正样本集，然后再从prior box出发为prior box集中寻找与groundtruth box满足IOU>0.5的一个IOU最大的prior box（如果有的话）放入候选正样本集，这样显然就增大了候选正样本集的数量。

2.负样本获得

在生成一系列的 prior boxes 之后，会产生很多个符合 ground truth box 的 positive boxes（候选正样本集），但同时，不符合 ground truth boxes 也很多，而且这个 negative boxes（候选负样本集），远多于 positive boxes。这会造成 negative boxes、positive boxes 之间的不均衡。训练时难以收敛。

因此，本文采取，先将每一个物体位置上对应 predictions（prior boxes）loss 进行排序。对于候选正样本集：选择最高的几个prior box与正样本集匹配(box索引同时存在于这两个集合里则匹配成功)，匹配不成功则删除这个正样本（因为这个正样本不在难例里已经很接近ground truth box了，不需要再训练了）；对于候选负样本集：选择最高的几个prior box与候选负样本集匹配，匹配成功则作为负样本。

这就是一个难例挖掘的过程，举个例子，假设在这8732个prior box里，经过FindMatches后得到候选正样本P个，候选负样本那就有8732-P个。将prior box的prediction loss按照从大到小顺序排列后选择最高的M个prior box。如果这P个候选正样本里有a个box不在这M个prior box里，将这M个box从候选正样本集中踢出去。如果这8732-P个候选负样本集中包含的8732-P有M-a个在这M个prior box，则将这M-a个候选负样本作为负样本。SSD算法中通过这种方式来保证 positives、negatives 的比例。实际代码中有三种负样本挖掘方式：

如果选择HARD_EXAMPLE方式（源于论文Training Region-based Object Detectors with Online Hard Example Mining），则默认M = 64，由于无法控制正样本数量，这种方式就有点类似于分类、回归按比重不同交替训练了。

如果选择MAX_NEGATIVE方式，则M = P*neg_pos_ratio，这里当neg_pos_ratio = 3的时候,就是论文中的正负样本比例1:3了。

enum MultiBoxLossParameter_MiningType { MultiBoxLossParameter_MiningType_NONE = 0, MultiBoxLossParameter_MiningType_MAX_NEGATIVE = 1, MultiBoxLossParameter_MiningType_HARD_EXAMPLE = 2};3.Data augmentation

3.hole filling algorithm

本文的 Base network 是基于 ICLR 2015, VGG16 来做的，在 ILSVRC CLS-LOC 数据集上进行了预训练。

与 ICLR 2015, DeepLab-LargeFOV 的工作类似，本文将 VGG 中的 FC6 layer、FC7 layer 转成为卷积层，并从模型的 FC6、FC7 上的参数，进行采样得到这两个卷积层的 parameters。但是这样变化后，会改变感受野（receptive field）的大小。因此，采用了 atrous algorithm 的技术，这里所谓的 atrous algorithm，我查阅了资料，就是 hole filling algorithm。

既想利用已经训练好的模型进行 fine-tuning，又想改变网络结构得到更加 dense 的 score map.
这个解决办法就是采用 Hole 算法。如下图 (a) (b) 所示，在以往的卷积或者 pooling 中，一个 filter 中相邻的权重作用在 feature map 上的位置都是物理上连续的。如下图 (c) 所示，为了保证感受野不发生变化，某一层的 stride 由 2 变为 1 以后，后面的层需要采用 hole 算法，具体来讲就是将连续的连接关系是根据 hole size 大小变成 skip 连接的（图 (c) 为了显示方便直接画在本层上了）。不要被 (c) 中的 padding 为 2 吓着了，其实 2 个 padding 不会同时和一个 filter 相连。
pool4 的 stride 由 2 变为 1，则紧接着的 conv5_1, conv5_2 和 conv5_3 中 hole size 为 2。接着 pool5 由 2 变为 1 , 则后面的 fc6 中 hole size 为 4。
这里写图片描述