-
摘要 ——论文的精华
摘要:本文提出了一种使用单个深度神经网络进行图像中目标检测的方法——SSD。SSD将边界框的输出空间离散化为一系列具有不同横纵比和大小的默认框,分布在特征图的每个位置。在预测时,网络为每个默认框中的每个物体类别的存在生成分数,并对默认框进行调整以更好的匹配物体形状。另外,网络将来自具有不同分辨率的多个特征图的预测组合在一起,使其能够自然地处理各种大小的物体。SSD相对于需要物体候选框(proposal)的检测方法而言是简单的,因为它完全消除了候选框生成和后续像素或特征重采样阶段,并将所有计算封装在单个网络中。这使得SSD易于训练并且可以直接集成到需要检测组件的系统中。PASCALVOC,COCO和ILSVRC数据集的实验结果证实,相比于利用额外候选框的检测方法,SSD在准确性具有竞争力并且速度更快,同时为训练和预测提供统一的框架。 对于300×300输入,SSD在Nvidia Titan X上以59 FPS进行VOC2007测试时达到74.3%mAP,对于512×512输入,SSD达到76.9%mAP,优于Faster R-CNN模型。 与其他单阶段(singe stage)方法相比,即使输入图像尺寸较小,SSD也具有更高的精度。
-
为什么更快?
We introduce SSD, a single-shot detector for multiple categories that is faster than the previous state-of-the-art for single shot detectors (YOLO), and significantly more accurate, in fact as accurate as slower techniques that perform explicit region proposals and pooling (including Faster R-CNN).
- 没有对候选框进行像素或特征的重采样 :在Faster-RCNN中,网络在提取到的特征图conv5_3(以VGG为例)上进行了卷积操作(sliding window)从而得到特征向量(512d for VGG)进行分类和回归,conv5_3每个位置都假定了不同大小的候选框(anchor),卷积操作相当于对每个位置的假定候选框进行特征提取(在特征图conv5_3上再次提取特征),即进行了候选框特征的重采样,而SSD没有重采样的操作。
- SSD没有像R-CNN系列方法候选框生成的阶段。
-
为什么准确高?
The core of SSD is predicting category scores and box offsets for a fixed set of default bounding boxes using small convolutional filters applied to feature maps.
To achieve high detection accuracy we produce predictions of different scales from feature maps of different scales, and explicitly separate predictions by aspect ratio.
- 在每个位置使用小(3x3)的卷积核(小的卷积核提取特征更精细?)预测物体种类和bounding box的偏移
- 对于不同横纵比的候选框使用不同的卷积核(每个特征图位置的不同横纵比的候选框)
- 使用卷积在多层特征图上对不同大小的bounding box进行预测(对于低分辨率图片检测准确率明显提升!!!)