一、简介
SSD只需要一张输入图片和ground truth box(真实的边界框)就可以开始训练.
1、在不同尺寸特征图的每个位置上,选取不同长宽比生成一系列的default box,在用卷积预测classification+buonding box regression二部分【1是各个类别的置信度或者评分,2是边界框的预测值 】
2、是default box 相对于边界框的转换值
一、网络结构
SSD用11conv层网络提取特征,最后用两层conv在不同的尺度的feature map上进行预测
VGG
注:默认conv:k_size=[3,3] stride=[1,1] padding = 'same' 最大池化:pool_size=[2,2],stride = [2,2]
提取特征---SSD(11层),其前5层是基于VGG16,只将VGG16第五层的max_pool改为pool_size =[3,3] stride=[1,1]
第6层(1conv) 1024filter k_size=[3,3] 空洞卷积(扩张率=6)
第7层(1conv) 1024filter k_size=[1,1]
第8层(2conv) 1conv 256filter k_size=[1,1] , 1conv 512filter stride=[2,2] padding='vaild'
第9层(2conv) 1conv 128filter k_size=[1,1] , 1conv 256filter stride=[2,2] padding='vaild'
第10层(2conv) 1conv 128filter k_size=[1,1] , 1conv 256filter padding='vaild'
第11层(2conv) 1conv 128filter k_size=[1,1] , 1conv 256filter padding='vaild'
三、特点
1、Default Box /Prior Box生成
论文中利用不同层的 feature map 来模仿学习不同尺度下物体的检测。
- 注:若计算第1个特征图的scale,则K=1,计算第2个特征图的scale,则K=2.........
示例: (取Smin=0.2 Smax =0.