(目标检测篇)系列文章目录
第一章:R-CNN网络详解
第二章:Fast R-CNN网络详解
第三章:Faster R-CNN网络详解
第四章:SSD网络详解
第五章:YOLO v1网络详解
第六章:YOLO v2网络详解
第七章:YOLO v3网络详解
文章目录
技术干货集锦
0.摘要
摘要:本文提出了一种使用单个深度神经网络在图像中检测物体的方法。我们的方法名为SSD,它将边界框的输出空间离散化为每个特征图位置上不同长宽比和尺度的一组默认框。在预测时,网络为每个默认框中每个物体类别的存在生成得分,并对框进行调整以更好地匹配物体形状。此外,网络结合了具有不同分辨率的多个特征图的预测,以自然地处理不同大小的物体。相对于需要物体提议的方法,SSD非常简单,因为它完全消除了提议生成和后续像素或特征重采样阶段,并将所有计算封装在一个网络中。这使得SSD易于训练,并且可以直接集成到需要检测组件的系统中。在PASCAL VOC、COCO和ILSVRC数据集上的实验结果证实,SSD与利用额外物体提议步骤的方法具有竞争性的准确性,并且速度更快,同时为训练和推理提供了统一的框架。对于300×300输入,在Nvidia Titan X上以59 FPS的速度在VOC2007测试集上实现了74.3%的mAP1,对于512×512输入,SSD达到了76.9%的mAP,优于具有可比较性的最先进的Faster R-CNN模型。与其他单阶段方法相比,即使输入图像尺寸较小,SSD的准确性也更高。代码可在GitHub - weiliu89/caffe at ssd 上找到。 关键词:实时目标检测;卷积神经网络
1.前言
引言:当前最先进的目标检测系统都是以下方法的变体:假设边界框,为每个框重新采样像素或特征,并应用高质量的分类器。自从Selective Search工作[1]至基于Faster R-CNN[2]的当前PASCAL VOC、COCO和ILSVRC检测的领先结果(尽管使用了更深的特征如[3]),这个流程在检测基准上占据主导地位。尽管准确,但这些方法对于嵌入式系统而言计算量太大,即使在高端硬件上,对于实时应用而言速度也太慢。这些方法的检测速度通常以每帧秒数(SPF)来衡量,即使是最快的高准确性检测器Faster R-CNN,每秒也只能处理7帧。已经有很多尝试通过攻击检测流程的每个阶段来构建更快的检测器(见第4节的相关工作),但到目前为止,显著提高的速度只是以明显降低的检测准确性为代价。
本文提出了第一个基于深度网络的目标检测器,它不需要对边界框假设重新采样像素或特征,而且与需要重新采样的方法一样准确。这导致高准确性检测速度的显著提高(在VOC2007测试中,mAP为74.3%,帧率为59FPS,而Faster R-CNN的mAP为73.2%,帧率为7FPS,YOLO的mAP为63.4%,帧率为45FPS)。速度的根本改善来自于消除边界框提议和随后的像素或特征重采样阶段。虽然我们不是第一个做到这一点的(参考[4,5]),但通过添加一系列的改进,我们成功地在准确性上显著提高了先前尝试的结果。我们的改进包括使用小型卷积滤波器来预测目标类别和边界框位置的偏移量,为不同长宽比的检测使用单独的预测器(滤波器),并将这些滤波器应用于网络后期的多个特征图,以便在多个尺度上进行检测。通过这些修改,特别是在不同尺度上使用多层进行预测,我们可以使用相对较低分辨率的输入实现高准确性,进一步增加检测速度。虽然这些贡献在独立进行时可能看起来很小,但我们注意到,所得到的系统将PASCAL VOC的实时检测准确性从YOLO的63.4%mAP提高到我们的SSD的74.3%mAP。这是比最近的关于残差网络[3]的非常高调的工作在检测准确性上取得的更大的相对改进。此外,显著提高高质量检测的速度可以扩大计算机视觉有用的范围。
我们的贡献总结如下:
- 我们引入了SSD,一个适用于多个类别的单次检测器,比之前的单次检测器(YOLO)更快,并且显著更准确,事实上与执行显式区域提议和池化的较慢技术(包括Faster R-CNN)一样准确。
- SSD的核心是使用小型卷积滤波器应用于特征图,为一组固定的默认边界框预测类别分数和框偏移量。
- 为了实现高检测准确性,我们从不同尺度的特征图产生不同尺度的预测,并根据长宽比明确分离预测。
- 这些设计特点导致了简单的端到端训练和高准确性,即使在低分辨率输入图像上也能进一步提高速度和准确性的权衡。
- 实验包括对具有不同输入尺寸的模型进行的计时和准确性分析,评估了在PASCAL VOC、COCO和ILSVRC上,并与一系列最新的先进方法进行了比较。
2.正文分析

(图1:SSD框架。(a)在训练过程中,SSD只需要输入图像和每个物体的真实边界框。我们以卷积的方式,在几个具有不同尺度(例如8×8和4×4)的特征图中的每个位置评估一小组(例如4个)具有不同长宽比的默认边界框。(b)和(c)展示了这些特征图的示例。对于每个默认边界框,我们预测了所有物体类别(c1;c2;···;cp)的形状偏移和置信度。在训练时,我们首先将这些默认边界框与真实边界框进行匹配。例如,我们将两个默认边界框与猫匹配,将一个默认边界框与狗匹配,将其视为正样本,将其余的视为负样本。模型损失是定位损失(例如Smooth L1 [6])和置信度损失(例如Softmax)的加权和)
2 单次检测器(SSD) 本节描述了我们提出的用于检测的SSD框架(第2.1节)以及相关的训练方法(第2.2节)。之后,第3节介绍了特定数据集的模型细节和实验结果。
2.1 模型 SSD方法基于一个前向卷积网络,该网络在一组固定大小的边界框和分数中产生目标类别实例的存在,并通过非最大抑制步骤生成最终的检测结果。该网络的早期层基于用于高质量图像分类的标准架构(在任何分类层之前截断),我们将其称为基础网络2。然后,我们在网络中添加辅助结构,以产生

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



