小目标检测——An Analysis of Scale Invariance in Object Detection – SNIP
之前参加的人头计数比赛,包含比较小的人头,最小的gtbox的尺度只有4个像素点,大部分人脸检测算法的anchor最小设置为16个像素点,较难检测到,为了解决这个问题,看了这篇论文,了解到小目标检测一般是怎么解决的。
文章的出发点就是小目标一直目标检测的难点,论文分析了目前在极端尺度变化下识别和检测物体的不同技术,对比,然后提出了一个新颖的训练策略:Scale Normalization。
尺度变化,尤其是小目标检测,一直是物体检测的难点,在ImageNet和COCO中,物体实例中等尺度的比例是0.554和0.106,所以在COCO中大多数物体均是小尺寸的或者是极端尺寸。
检测器需要处理的目标尺度变化时很大的,是CNN尺度不变属性的一个很大的挑战,尺度的变化导致了domain-shift。
目前为了缓解尺度变化和小目标的问题,现在已经提出了很多的方法:
- 浅层特征与深层特征融合来检测小目标
- dilated/deformable convolution 用来增大感受野以提升大目标的检测
- 在不同分辨率的层做独立的预测来获取不同的尺度
- 上下文信息来对模棱两可的情况做分辨
- 多尺度训练
- 多尺度测试
- NMS预测
目前还有一些跟训练相关的重要的点没有提出: - 上采样图片能够保持好的性能吗?数据集中形状是480x640,为什么要上采样到800x1200。我们可以在低分辨率的图中用更小的stride预训练吗?
- 当finetune的时候,训练物体实例的分辨率的应该在一定范围之内(64x64 - 256x256)吗?在适当rescale输入图片之后(上采样图片),所有分辨率的物体都参与训练吗?