Detection:SSD(single shot multibox detecter)

SSD(Single Shot MultiBox Detector)是一种深度学习目标检测方法,它通过在不同层级的特征图上提取边界框并直接预测类别和位置,实现了快速检测。主要创新点包括:1) 多尺度特征图提取边界框,底层特征图捕捉细节,高层特征图进行分类;2) 摒弃提案阶段,提高效率。此外,还涉及特定的预测器设计、损失函数计算以及数据增强策略,如随机选取图像补丁、比例变换等。针对小目标检测效果不佳的问题,可以通过调整底层特征图和默认边界框匹配方式来优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ssd这篇感觉很工程,主要的工作我觉得有两个:

1.从多层fm上提取bbox,相当于一个multi scale的操作。值得注意的是,首先越靠近bottom越底层的fm在细节表达上做得越好,高层的fm会学习出分类这种概括性的表达,原文中加上最高层的bbox甚至会比去掉这一层效果更差(当然可能是噪声);其次在fm上的bbox并不是严格去对应原图上的reception filed(再加上后面data augmentation工作,我的理解是目标框并不需要一个严格的标注标准比如严格相切之类),对应的关系有公式给出:


sk是第k层(原文总共有6层)提取bbox的fm与原图的尺度比例,这里smin=0.2,smax=0.9,这个定义涉及到default bbox的对应区域,是一个开放性的问题,可以根据自己的实际需求去重新定义。然后对于(aspect ratio),width计算,height计算(都要乘原图size),中心点位置,fk是第k张fm的size。这样,假设最高一层fm的size是4*4,取(i,j)=(0,0),smin=0.2,对1:1的bbox来说,512*512的原图上中心点在(64,64),长宽为102像素。


2.取消了proposal,这也是ssd速度极大提升的原因。为什么效果还这么好有待进一步探究。



还有一些值得一提的工程工作:

1.predictor for detection:在6层fm上提取bbox,对于每一层来说,要分别过一个出loc的卷积层和出conf的卷积层(conv4_3要先过norm层),然后数据排序拼接之后进入multiboxloss层


2.loss的计算


总loss,其中阿尔法交叉验证后取1




3.data augmentation:

在原图上随机取patch,大小是0.1到1原图大小,ratio是1/2到2,保留patch和gt box的overlap且gtbox中心点在这一部分中的。(这一部分解释有待再去参考代码)


4.检测小目标效果不好的情况:可以通过输入更低层fm和调整default bbox对应关系来改善。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值