Center and Scale Prediction(Caltech ,Citypersons ,face,person)

本文介绍了一种新型目标检测方法CSP,它通过检测目标中心点及预测目标尺度,实现高效准确的行人和人脸检测。CSP采用全卷积网络,结合特征融合和高斯掩码策略,有效解决了小目标检测和遮挡问题。

Center and Scale Prediction(Caltech ,Citypersons ,face,person)

本文提出在全卷积网络的基础上,将目标检测构建为一个目标中心点检测和目标尺度预测的任务

[外链图片转存失败(img-FrDJX7V1-1567866205077)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1561363742754.png)]

基本框架:下图给出了 CSP 算法的整体框架,其结构非常简单,主要包含两个模块:特征提取模块(Feature Extraction)和检测头模块(Detection Head)

[外链图片转存失败(img-8TeNVBNb-1567866205079)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1561364088679.png)]

特征提取模块

本文采用一种最简单的特征融合方式:首先对所有要融合的特征图进行 L2 归一化,再利用反卷积层将第 3、4 和5 级的特征图分辨率提升到和第 2 级的特征图分辨率保持一致,也即原图的 1/4,然后再将这些特征图在通道维度上拼接起来,得到最终用于检测的特征图(图中紫色部分)

检测头模块

在检测头模块中,首先接上一个 3x3 卷积层将输入特征图的维度压缩到 256,然后接上两个并联的 1x1 卷积层产生目标中心点热图和目标尺度预测图,这样相较于 R-CNN SSD 等系列工作而言极大地简化了检测头模块。实验表明中心点检测和尺度预测已经足以胜任行人检测任务。但采用降采样的特征图会影响目标定位性能,为了弥补这一缺陷,在中心点以及尺度预测之外,还可以额外添加一个偏移预测分支,用以进一步预测中心点到真实目标中心的偏移。

高斯掩码和 focal 策略

  • 通常情况下一个「完美」的目标中心点是很难定义的。由于正样本周围的负样本距离中心点非常近,很容易被标注误差所干扰,因此直接将其指定为负样本会给检测器的训练带来困扰。对此,本文在每个正样本及其周围采用一个高斯掩码,该高斯掩码以目标中心点为中心坐标,其水平/垂直方差与目标的宽度/高度成正比。如果两个目标的高斯掩码之间存在重合,则择取二者中的最大值。
  • 为了应对正负样本数量极端不平衡的问题,本文也采用 CornerNet 中的 focal 策略——对难样本赋予更大的权重

一是难样本的权重得到了增强,二是在正样本周围的负样本的权重得到了降低。最后,目标的尺度预测可以构建为一个回归问题,由经典的平滑 L1 损失给出。

实验

CSP 没有额外设计针对遮挡的策略,但是在有无遮挡时均优于最优的模型(RepLoss 和 OR-CNN)

速度一般,0.33s per image

总结

CSP 的小目标检测能力得益于大分辨率的特征图。而对于遮挡,传统的基于密集滑窗(如 VJ 检测器)或者基于 Faster R-CNN、采用感兴趣区域池化(ROI Pooling)的检测器,本质上都是对目标区域的一个整体判断的分类器,因此目标区域的遮挡和背景等信息是包含在其整体判断里的。而本文提出的 CSP 对目标在哪里和有多大进行了解离,在热图上只检测中心点,尺度大小是额外预测的,因此受遮挡的影响相对较小。

近年流行的锚点框检测器取得了很大的成功,但依然是 VJ 检测器奠定的基础,其设计深受滑窗分类器的影响。然而,深度卷积神经网络高度的语义抽象能力开辟了更广阔的潜力,使得抛弃锚点框成为一种可能,而本文提出的 CSP 检测器便是这方面的一种新的尝试。目前已在行人检测和人脸检测上验证了有效性,未来可进一步考虑拓展到车辆检测和通用物体检测等相关的检测任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值