论文背景
论文全称:Single Shot MultiBox Detector
论文链接:https://arxiv.org/abs/1512.02325
论文日期:2016.12.29
算法简介
本文既保证了检测速度的提高,同时保证了检测准确度的提高。
本文是在faster RCNN与YOLO之后提出来的,与原先的目标检测算法不同,未采用两阶段的神经网络,而是将整个检测过程封装为单个神经网络。这是提高检测速度的关键。
- 消除了候选区域提取的过程,直接将整张图片输入;
- 同时去除了随后的对于像素点或者特征进行重采样的阶段。
结果:
SSD使用300×300的图片作为输入,在VOC2007上达到了检测速度为59FPS,检测准确率为74.3%mAP;
SSD使用512×512的图片作为输入,在VOC2007数据集上检测准确率为76.9%mAP。
Faster RCNN在VOC2007上达到了检测速度为7FPS,检测准确率为73.2%mAP。
YOLO在VOC2007上达到了检测速度为45FPS,检测准确率为63.4%mAP;
改进:
- 使用小卷积核来预测目标的类别,并且抵消边界框的定位;
- 对于不同比例的检测过程,使用独立的卷积核;(最重要的改进:使用不同的比例的多个层用于预测)
- 为了将检测器应用于多尺寸,从神经网络的后阶段将这些卷积核应用到多个特征图中。
算法结构
SSD在训练过程,需要一整张图片以及对每个物体的真实框标签作为输入;
在卷积过程中,会对不同尺寸的几个特征映射中的每一个位置的的不同比例的少量默认框进行评估;
对于每个默认框,对于所有的目标类别都预测形状偏移以及置信度;