我读SSD

最新推荐文章于 2022-10-02 20:33:53 发布

原创最新推荐文章于 2022-10-02 20:33:53 发布 · 2.5k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#ssd #目标检测 #深度学习 #yolo

文献阅读笔记专栏收录该内容

18 篇文章

订阅专栏

SSD是一种高效的目标检测算法，它结合了YOLO的速度优势和Faster R-CNN的准确性。该文详细介绍了SSD的工作原理，包括其金字塔模型、卷积检测方法以及训练策略等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

论文地址：SSD: Single Shot MultiBox Detector
代码地址：GitHub
视频：Video
这篇文章发表于 ECCV 2016，在 YOLO 的 grid cell 之上做了一些工作，结合 Faster R-CNN 的 anchor，使用卷积方式对每幅图只计算一次就能够得到最终检测结果。速度比 YOLO 快，且精度高于 Faster R-CNN。

现状

在 R-CNN 提出之前的一堆通过滑动窗口+特征方式做目标检测，以 DPM 为代表
在 YOLO 之前一堆通过定位+分类方式，对每个 proposal 进行分类，R-CNN 系列为代表
R-FCN 也提取 proposal，但是对所有的 proposal 统一做一次 pooling 计算，去除了上面对每个 proposal 有子网络速度慢的缺点
YOLO 提出来对图片画格子方法，对每个格子进行检测

贡献

速度提升：300x300 的输入尺寸，速度可以达到 58 fps
精度提升：500x500 的输入尺寸，精读可达 75.1%
输入可调：输入图片的尺寸可以自定义，尺寸大的话精度高但速度慢，尺寸小速度快精度低

方法

一句话概括就是去除了 YOLO 网络中的全连接层，改为卷积层，加入金字塔模型，与此同时修改了每个 cell 贡献的 bounding-box 个数（anchor）。下面分别介绍这几个优化的操作方法。
这里写图片描述

金字塔模型

YOLO 和本文都使用了一个 feature map 的概念，feature map 是指基础网络（如 VGG-16）的最后一个卷积层输出。YOLO 只对一个 feature map 获取信息，而本文中对基础网络产生的 feature map 后接继续卷积层，产生另外一个 feature map，后面再加卷积层又有一个 feature map，这样每个 feature map 都可以产生预测值，由此加入了多尺度的概念。

卷积检测（主要贡献点）

YOLO 中对 feature map 产生预测使用的是全连接层，参数较多，本文改为使用卷积产生预测，卷积核一般是 $3\times3\times p$ ，其中

3 是经验值
$p=k\times (\#Classes+4)$ ，k 就是 anchor 的个数

再看一眼 YOLO 的格式是 $k\times5+\#Classes$ ，与 YOLO 的不同之处在于每个 bounding box 可以有不同的分类，并且舍弃了是否是 object 这一项的预测。

网格对应的默认边框以及长宽比例

文中的 Default Boxes 困扰了我很久，其实作用就是为了获取网格对应的训练真值。可能是因为人工标注的真值没办法与上面的 k 个 bbox 对应，所以作者新建 k 个 default box 作为训练时的真值。每个 default box 的长宽比例保持固定。

训练方法

默认边框与标注真值的匹配方法

YOLO 中使用物体中心点落入网格当中进行匹配，SSD 改为计算 IoU 的方式。

每个 ground truth 的边框与最大 IoU 的 default box 边框匹配
每个 default box 边框随机挑选一个的 IoU 大于 0.5 的 ground truth 匹配

损失函数

L (x, c, l, g) = 1 N (L c o n f (x, c) + α L l o c (x, l, g))

$L(x,c,l,g)=\frac{1}{N}(L_{conf}(x,c)+\alpha L_{loc}(x,l,g))$

等号右面的第一项为 softmax 的损失函数，第二项和 Faster R-CNN 一样

默认边框长啥样

在金字塔模型中，每个 feature map 有不同的尺寸，假设有 m 层金字塔。Default box 与输入图片比例为 $s_k$

s k = s m i n + s m a x - s m i n m - 1 (k - 1), k \in [1, m]

$s_k=s_{min}+\frac{s_{max}-s_{min}}{m-1}(k-1),\qquad k\in[1,m]$

其中 $s_{min}=0.2,s_{max}=0.95$ 表示 default box 的边长最小占整幅图片的 20%，最大占 95%。Default box 边长的长款比例为 $a_r\in\{1,2,3,\frac{1}{2},\frac{1}{3}\}$ ，并且对长宽比是 1 的增加一个 $s_k'=\sqrt{s_ks_{k+1}}$ 。所以每个网格对应 6 个 default boxes。于是我们有

边框中心为 $(\frac{i+0.5}{|f_k|},\frac{j+0.5}{|f_k|})$ ， $|f_k|$ 为第 k 层 feature map 的尺寸， $i,j\in[0,|f_k|]$
边框边长为 $(w_k^a=s_k\sqrt{a_r},h_k^a=\frac{s_k}{\sqrt{a_r}})$