摘要:我们在每个特征图的位置上将bbox的输出空间离散成一系列有不同尺寸和纵横比的默认的框。对于每一个默认框网络预测一个每一个类别的概率,并产生一个bbox的调整向量。此外,该网络结合了来自不同分辨率的多个特征图的预测,来处理不同尺度的目标问题。
模型
多尺度的特征图做检测:在base network后增加了卷积特征层。这些层在尺寸上逐渐减小,以实现多尺度的检测。该卷积模型不同于在一个单尺度特征图上计算的单特征层。
训练
训练ssd和训练有rpn的目标检测器的区别在于,gt信息需要被分配到固定的检测器输出的特定输出上。
SSD对于不同的层选用一个不同的scale,目的在于令不同的输出层学会检测不同的scale的目标。
SSD对目标大小比较敏感,对大目标的效果好,小目标的效果差。而且错误分析中误分类的情况比较多。
总结
如果我们只使用最后一层feature map在每个位置预测一个默认框,那么我们的SSD就跟OverFeat很类似。如果我们使用最后一层feature map,并增加一个全连接层预测,同时也不考虑多个纵横比,那基本接近YOLO。