TensorFlow object detection API部分原理之SSD算法

原创于 2021-03-10 20:29:06 发布 · 392 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #深度学习

算法同时被 2 个专栏收录

11 篇文章

订阅专栏

人工智能

9 篇文章

订阅专栏

本文深入解析了SSD（Single Shot MultiBox Detector）算法的工作原理及其网络结构。通过VGG-16作为基础网络，并结合多个不同尺度的特征图进行目标检测，详细介绍了每个特征层的配置参数与作用。

部署运行你感兴趣的模型镜像

一、SSD（Single Shot MultiBox Detector）算法

SSD算法是Faster R-CNN和YOLO的组合，因此性能方面能比两者好一些。

SSD的网络结构图：

看图分析：

①首先是一个VGG-16的卷积层

其中Conv4_3层， Classifier：Conv：3*3*（4*（Classes+4））

因此这一层提取出的feature map=38*38

②接着是两个卷积层（FC6、FC7）

其中Conv6/7层， Classifier：Conv：3*3*（6*（Classes+4））

因此这一层提取出的feature map=19*19

③最后是Extra Feature Layers层

其中Conv10_2层， Classifier：Conv：3*3*（4*（Classes+4））

因此这一层提取出的feature map=3*3

在Classifier中：

Classes是识别的种类数；

加号后面的4是x,y,w,h坐标；

绿色的数字是指default box的数量。

4个default box 是长宽比为（1:1）、（2:1）、（1:2）、（1:1）

6个default box 是长宽比为（1:1）、（2:1）、（1:2）、（1:1）、（1:3）、（3:1）

【两个（1:1）并不是重复错误，而是公式原因】
　　

    Conv4_3  feature map：38*38————38*38*4 = 5776

　　Conv7    feature map：19*19————19*19*6 = 2166

　　Conv8_2  feature map：10*10————10*10*6 = 600

　　Conv9_2  feature map：5 * 5————5 *5 *6 = 150

　　Conv10_2 feature map：3 * 3————3 * 3 *4 = 36

　　Conv11_2 feature map：1 * 1————1 * 1 *4 = 4

    5776+2166+600+150+36+4=8732

Sk	相对于图片的比例
m	一共有多少层feature map
k	当前是第几层feature map
Smin	第一层所占比例，在SSD300中为0.2
Smax	最后一层所占比例，在SSD300中为0.9
ar	default box比例

$wk=Sk*\sqrt{ar}$