【R-CNN系列目标检测】（7）SSD算法

最新推荐文章于 2025-03-31 09:09:15 发布

原创最新推荐文章于 2025-03-31 09:09:15 发布 · 1.8k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#ssd #算法

机器学习专栏收录该内容

44 篇文章

订阅专栏

SSD算法结合了YOLO的速度优势和Faster R-CNN的准确度特点，通过多尺度特征图和固定网格方法实现了目标检测任务的高效处理。本文详细介绍了SSD的工作原理，包括网络结构、default box的概念、多尺度预测机制及其训练过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【1】SSD（Single Shot MultiBox Detector）算法可以理解为 YOLO + Faster R-CNN 的进化方法。

严格来说，YOLO 、YOLO2 和 SSD 已经不是 R-CNN 的思路了：

1）R-CNN 系列（R-CNN、SPPnet、Fast R-CNN、Faster R-CNN）基于 “Proposal + Classification”的路线，mAP 比较高，但速度不理想；

2）YOLO 系列将分类问题转为回归问题，速度达到实时的要求，但精度有所下降，并且先天性的对小目标效果不好。
SSD 作为 YOLO 的超级改进版，同时兼顾了 mAP 和实时性的要求。对于 300*300 的输入，在 Titan X 上达到 58 fps、72.1%的mAP

　　　　　　　　这里写图片描述
　　　　　　　　　　　　　　　　　图1. 系列算法的 FPS 和 mAP 对比（摘自这里）

SSD算法思路

概括来说，SSD 同时考察网络中不同层次的卷积（feature map）结果，具有多尺度的特性；采用类似 YOLO 的固定网格方法确定目标位置，用类似 Faster-RCNN 里 Anchor 的 scale 和 ratio 调整目标框

多尺度 feature map

参考这篇知乎专栏，SSD 以 VGG16 为基础，使用前5层，将后面的全连接层 fc6 和 fc7 转换为两个卷积层，后面增加 3 个卷积层和 1 个 average pool 层。不同层次的 feature map 用于对 default box 偏移和所属类别的预测

　　　这里写图片描述
　　　　　　　　　　　　　　　　　　　　　　　图2. SSD 与 YOLO 的网络

1）fc6 和 fc7 的转换应用了 atrous algorithm 技术。因为全连接层变为卷积层会导致感受野（receptive field）变小。参考这里，atrous 通过将连续的连接关系变成 skip 连接来扩大每个神经元的感受野（图3）

　　这里写图片描述
　　　　　　　　　　　　　　　　　　　图3. atrous 通过设置 rate 弥补感受野的损失（来自这里）

此外，文章《卷积神经网络物体检测之感受野大小计算》和《CNN中感受野的计算》对感受野概念做了介绍，并给出了感受野的计算方法：
采用 top to down 的方式，从当前层逐层传到第一层

# 令 RF 为当前层的感受野（size * stride）
for layer in (top layer To down layer):
    RF = ((RF-1) * stride + fsize)
# 得到的结果就是当前层在整个网络的感受野

2）关于 default box
如《论文阅读：SSD: Single Shot MultiBox Detector》所述：

feature map cell 就是将 feature map 切分成 8×8 或者 4×4 之后的一个个格子;
default box 就是每一个格子上，一系列固定大小的 box，即图中虚线所形成的一系列 boxes

　　　
　　　　　　　　　　　　　　　图4. (b)(c)将卷积结果分成8x8和4x4的feature map cell；
　　　　　　　　　　　　　　　　　每个格子上由不同scale和ratio生成的 default box

假定一共抽取 m 个不同层做预测，最底层的 scale 为 $s_{min}=0.2$ ，最高层为 $s_{max}=0.95$
1）中间层的scale通过以下公式得到

s k = s m i n + s m a x - s m i n m - 1, k \in [1, m]

$s_k=s_{min}+\frac{s_{max}-s_{min}}{m-1},k\in[1,m]$
2）每一层有5种ratio

ar∈{1,2,12,3,13} $a_r\in\{1,2,\frac{1}{2},3,\frac{1}{3}\}$ 用于计算 default box 的宽高

{w a k = s k a r - - \sqrt h a k = s k a r \sqrt

$\begin{cases}w_k^a=s_k\sqrt{a_r} \\h_k^a=\frac{s_k}{\sqrt{a_r}}\end{cases}$
对于 ratio=1 的情况，额外指定一个

s′k=sksk+1−−−−−√ $s_k^{'}=\sqrt{s_ks_{k+1}}$ ，这样一共有 6 种不同的 default box

3）每个 default box 的中心为 $(\frac{i+0.5}{|f_k|}, \frac{j+0.5}{|f_k|})$ ，其中 $|f_k|$ 为第k个 feature map 的大小， $i,j\in[0,|f_k|]$

3）抽取特定的卷积层用于多尺度预测
这篇文章从代码层面分析，SSD 抽取 conv4_3（4）、fc7（6）、conv6_2（6）、conv7_2（6）、conv8_2（4）、conv9_2（4）输出的 feature map（括号里面是 default box 的数量）

每一个后面再采用两套并列的 3*3 卷积核做卷积，一个用于回归 box 偏移位置（假设default box为6，那么一共6*4=24个卷积核），一个用于确定类别的confidence（假设default box为6，类别为20+1，那么一共6*21=126个卷积核）

训练过程

1）样本处理
YOLO系列与 “Proposal + Classification”最大的不同在于：最终的目标位置在一开始就是确定的（default box 微调的结果）

因此在训练时需要首先将样本的 ground true box 与某个 default box 对应，实际参与回归的其实是那个对应的 default box

在实际操作中，将那些与 ground true box 的 IoU 大于 0.5 的 default box 作为正样本（一个 ground true box 可能对应多个正样本），其余 default box 为负样本

2）目标函数
与常见的 Object Detection 相同，分为类别置信度和 box 位置回归。类别置信度采用 Softmax Loss（Faster R-CNN为 log loss），box 回归采用与 Faster R-CNN 一样的 Smooth L1 loss

L (x, c, l, g) = 1 N (L c o n f (x, c) + α L l o c (x, l, g))

$L(x,c,l,g)=\frac{1}{N}(L_{conf}(x,c) + \alpha L_{loc}(x,l,g))$

其中 $N$ 是与 ground true box 相匹配的 default box 个数
$L_{loc}$ 采用 Smooth L1 Loss，回归 bounding box 的（中心位置，width, height）
$L_{conf}$ 采用 Softmax Loss，输入为每一类的置信度 c
$\alpha = 1$

3）hard negative mining
feature map 上每个点对应 6 个不同的 default box，绝大部分为负样本，这样导致正负样本不平衡
训练时根据 confidence loss 对所有 loss 排序，选择最高的几个，使正负样本比例保持在 1：3，mAP 最终提高了4%

4）data augmentation
又称“数据增广”，详细的介绍可以参考文章《Must Know Tips/Tricks in Deep Neural Networks 》

对每一张训练图像，随机的从如下3种方法选择一种：