论文笔记:SSD(Single Shot MultiBox Detector)

1、概述

通常目标检测系统的套路是:

  1. 假设边界框
  2. 重采样每个框的像素或特征
  3. 使用高质量分类器

这个套路虽然管用,但是计算量太大,见效慢,应用在嵌入式系统中,即使使用高端硬件也很难达到实时运算速度。

作者提出了一种称之为 S S D SSD SSD 的方法,它将边界框输出空间离散化为每个特征图位置下的具有不同纵横比和尺度的一组默认框。预测时,网络为每个默认框生成各目标类出现在该框的概率,并调整默认框更好地匹配目标形状。此外,网络结合不同分辨率的多特征图的预测来处理不同大小的目标 S S D SSD SSD 相对于目标提议的方法更简单,因为它完全消除了提议生成和随后的像素或特征重采样阶段,并将所有计算封装在单个网络中。 源码在这里

S S D SSD SSD 相对于 F a s t e r   R − C N N Faster~R-CNN Faster RCNN 等方法速度更快,而且检测精度相当。速度上的提升主要源于去除了边界框提议,以及随后的像素或特征重采样步骤。 这并非 S S D SSD SSD 首创,但是作者通过一系列改进,设法提升了精度。改进包括:

  1. 使用小卷积核预测目标类别及边界框位置偏置
  2. 使用单独的预测器(卷积核)用于不同纵横比的检测
  3. 将这些卷积核应用于网络后期的多个特征图,以实现多尺度检测

主要贡献如下:

  1. 作者提出 S S D SSD SSD 检测速度更快但是相对更精确
  2. S S D SSD SSD 核心是在特征图上使用小卷积核来预测多类别概率以及一组固定默认框的偏置
  3. 从不同尺度特征图中产生不同尺度预测,按照纵横比将预测分开
  4. 网络能够进行端到端的训练,即使在输入分辨率较低的情况下也能获得较高的精度。

2、SSD 模型

S S D SSD SSD 方法通过前向卷积产生固定数量的边界框,以及目标类别实例出现在这些边界框中的概率,随后通过非最大抑制产生最终预测。 网络的前几层基于用于高质量图像分类的网络架构(在分类层之前截断),作者称之为基本网络。然后在网络中添加辅助结构,产生具有以下关键特性的检测:

  1. 用于检测的多尺度特征图 作者在截断基本网络后面添加卷积特征层。这些层的尺寸逐渐减小,并允许在多个尺度上预测检测结果。对于每个特征层,预测检测的卷积模型是不同的(肯定不同啊,特征图大小不一样,使用相同的预测网络,输出的结果维数就不确定了)
  2. 用于检测的卷积预测器 每个添加的特征层(或者基础网络已有的特征层)可以使用一组卷积核产生一组固定的检测预测。如图 2 2 2 网络头部所示。对于大小为 m × n m\times n m×n 通道为 p p p 的特征层,使用 3 × 3 × p 3\times3\times p 3×3×p 的小卷积核产生类别概率或者相对默认框坐标的形状偏置(不是使用 1 × 1 1\times1 1×1 卷积)。边界框偏移输出值是相对于 默认框相对于每个特征图的相对位置 来测量的(这句话有点绕)。
    在这里插入图片描述
  3. 默认框及纵横比 将一组默认的边界框与特征图单元(类似于 Y O L O YOLO YOLO g r i d grid grid)相关联,用于网络顶部的多特征图。默认框以卷积的方式平铺特征图,这样每个框相对于其对应单元格的位置是固定的在每一个特征图单元,在单元中预测相对于默认框形状的偏置(不是相对于默认框坐标偏置,而是相对于默认框形状,想想原因~),以及在那些框中的每一个上,出现每一类目标实例的概率。对于给定位置 k k k 个框中的每一个,计算 c c c 个类别概率,以及相对于原始默认框形状的 4 4 4 个位置偏量。这导致特征图的每个位置上需要使用 ( c + 4 ) k (c+4)k (c+4)k 个卷积核,对于大小为 m × n m\times n m×n 的特征图,总共产生 ( c + 4 ) k m n (c+4)kmn (c+4)kmn 个输出。默认框的表述参考图 1 1 1。默认框类似于 F a s t e r   R − C N N Faster~R-CNN Faster RCNN 中的 a n c h o r anchor anchor 框。但是作者将它们用于不同分辨率下的多个特征图。在多个特征图中存在不同形状的默认框使 S S D SSD SSD 能够更有效地离散可能的输出框形状的空间。
    在这里插入图片描述

3、训练

训练 S S D SSD SSD 与训练使用区域提议的检测器的主要区别在于, g r o u n d   t r u t h ground~truth ground truth 信息需要分配给一组固定的检测器输出中的特定的一个 Y O L O YOLO YOLO 将一个目标的检测分配给该目标坐标中心所在的 g r i d   c e l l grid~cell grid cell)。这个分配一旦敲定,损失函数和反向传播能够端到端进行。训练也涉及到选择用于检测的一组默认框及其尺度大小,以及难分负样本挖掘和数据增强策略。(难负样本为模型误认为是正样本的负样本,即 F P FP FP

匹配策略

训练时需要确定哪个默认框对应 g r o u n d   t r u t h ground~truth ground truth 检测,并相应地训练网络。对于每个 g r o u n d   t r u t h ground~truth ground truth,从具有不同位置,纵横比,尺度的默认框中挑选。首先将每个 g r o u n d   t r u t h ground~truth ground truth 与和它具有最佳 j a c c a r d jaccard jaccard 重叠(就是 I o U IoU IoU)的默认框进行匹配(如 M u l t i B o x MultiBox MultiBox 一样的做法)。不同的是,之后将默认框与 j a c c a r d jaccard jaccard 重叠高于阈值( 0.5 0.5 0.5)的任意 g r o u n d   t r u t h ground~truth ground truth 匹配。这简化了学习问题,使网络能够为多个重叠默认框预测高分(大概率),而不是要求它只选择重叠最大的一个。


损失函数

S S D SSD SSD 损失函数源于 M u l t i B o x MultiBox MultiBox 但是被扩展到能够处理多个目标类别。 x i j p = { 1 , 0 } x_{ij}^p=\{1,0\} xijp={ 1,0} 指示第 i i i 个默认框是否与 p p p 类第 j j j g r o u n d   t r u t h ground~truth ground truth 框匹配。根据以上匹配策略可以得到, ∑ i x i j p ≥ 1 \sum_ix_{ij}^p\ge1 ixijp1。整体目标损失函数是定位损失( l o c loc loc)和置信损失( c o n f conf conf)的加权和。
(1) L ( x , c , l , g ) = 1 N ( L c o n f ( x , c ) + α L l o c ( x , l , g ) ) L(x,c,l,g)=\frac{1}{N}\big(L_{conf}(x,c)+\alpha L_{loc}(x,l,g)\big)\tag1 L(x,c,l,g)=N1(Lconf(x,c)+αLloc(x,l,g))(1)
其中, N N N 是匹配的默认框数量。若 N = 0 N=0 N=0 则将损失设置为 0 0 0。定位损失是一个在预测框( l l l)和 g r o u n d   t r u t h ground~truth ground truth 框( g g g)之间的 S m o o t h   L 1 Smooth~L1 Smooth L1 损失。默认框( d d d)的中心为 ( c x , c y ) (cx,cy) (cx,cy) 宽度为 w w w 高度为 h h h
(2) L l o c ( x , l , g ) = ∑ i ∈ P o s N ∑ m ∈ { c x , c y , w , h } x i j k s m o o t h L 1 ( l i m − g ^ j m ) g ^ j c x = ( g j c x − d i c x ) / d i w        g ^ j c y = ( g j c y − d i c y ) / d i h g ^ j w = l o g ( g j w d i w )                  g ^ j h = l o g ( g j h d i h ) \begin{aligned} L_{loc}(x,l,g)&=\sum\limits_{i\in Pos}^{N}\sum\limits_{m\in\{cx,cy,w,h\}}x_{ij}^ksmooth_{L1}(l_i^m-\hat g_j^m)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值