1. 前言
人脸检测领域目前主要的难点集中在小尺寸,模糊人脸,以及遮挡人脸的检测,这篇ICCV2017的S3FD(全称:Single Shot Scale-invariant Face Detector)即是在小尺寸人脸检测上发力。
2. 出发点&贡献
S3FD这篇论文的出发点是当人脸尺寸比较小的时候,Anchor-Based的人脸检测算法效果下降明显,因此作者提出了这个不受人脸变化影响的S3FD算法。这一算整体上可以看做是基于SSD的改进,它的主要贡献可以概括为:
- 改进检测网络并设置更加合理的Anchor,改进检测网络主要是增加
Stride=4的预测层,Anchor尺寸的设置参考有效感受野,另外不同预测层的Anchor间隔采用等比例设置。 - 引入尺度补偿的Anchor匹配策略增加正样本Anchor的数量,从而提高人脸的召回率。
- 引入
max-out background label降低误检。
3. 小尺寸人脸检测效果不好的原因研究
下面的Figure1展示了论文对Anchor-Based的人脸检测算法在小人脸检测中效果下降明显的原因分析。

Figure1(a)中展示的是网络结构本身设计的问题。了解过SSD的同学知道在网络结构中有多个特征层被用于检测目标,这些特征层中stride最小的是 8 8 8,这样原图中 8 × 8 8\times 8 8×8大小的区域在该预测层中就仅有1个像素点,这对小人脸的检测是非常不利的,因为有效的特征太少了。同样,对于Faster-RCNN来讲,用于检测目标的特征层的stride是 16 16 16,这样用于人脸检测的有效特征范围就更小,这对小脸检测是致命打击。Figure1(b)中展示了Anchor的尺寸,感受野和人脸的尺寸不匹配的问题。Figure1(c)中展示了由于一般设置的Anchor尺寸都是离散的,例如 [ 16 , 32 , 64 , 128 , 256 , 512 ] [16,32,64,128,256,512] [16,32,64,128,256,512], 而人脸的尺寸是连续的,因此当人脸的尺寸在设定的Anchor值之间时可以用于检测的Anchor数量就会很少,如图中的红色圆圈部分所示,这样就会导致人脸检测的召回率低。Figure1(d)指出为了提高小人脸的检测召回率,很多检测算法都会通过设置较多的小尺寸Anchor实现,这样容易导致较多的小尺寸负样本Anchor,最终导致误检率的增加。这里两张图的分辨率是一样的,左图中的人脸区域较小,因此主要通过浅层特征来进行检测,因此这里Anchor尺寸设置较小,而右图中的人脸区域较大,因此主要是通过高层特征进行检测,此时Anchor尺寸设置较大。可以看出左图中标签为背景的Anchor数量远远多于标签为目标的Anchor,而在右图中数量比例还是相对较均衡的。
4. S3FD原理
论文针对第三节的问题进行了分析并提出了解决方案,也就有了这篇S3FD。
首先针对FIgure1(a),(b)的问题,论文对检测网络的设计以及Anchor的铺设做了改进,提出了不受人脸尺寸影响的检测网络,改进的主要内容包括:
- 预测层的最小
stride降低到 4 4 4(具体而言预测层的stride范围为 4 4 4到 128 128 128,一共 6 6 6个预测层),这样就保证了小人脸在浅层进行检测时能够有足够的特征信息。 - Anchor的尺寸根据每个预测层的有效感受野和等比例间隔原理进行设置,设置为 16 16 16到 512 512 512,前者保证了每个预测层的Anchor和有效感受野大小匹配,后者保证了不同预测层的Anchor再输入图像中的密度基本类似。
下面的Figure3展示了Anchor尺寸和数量设置的依据。

-
Figure3(a)展示了有效感受野effective receptive field和理论感受野theoretical receptive field的区别,其中整个(a)代表的就是理论感受野,一般都是矩形,而(a)中的白色点状区域就是有效感受野。这一点可以看我们更详细的文章:目标检测和感受野的总结和想法 -
Figure3(b)以预测层conv3_3(stride=4)为例介绍理论感受野、有效感受野和Anchor尺寸的关系。首先黑色点组成的方形框就是理论感受野,对于conv3_3预测层来说是 48 × 48 48\times 48 48×48,而有效感受野是蓝色点组成的圆形框,而红色实线组成的方形框是该预测层设置的Anchor,尺寸是 16 × 16 16\times 16 16×16,可以看到这里Anchor的尺寸和有效感受野是匹配的。 -
Figure3(c)是关于Anchor的等比例间隔设置。假设 n n n是Anchor的尺寸,那么将Anchor的间隔设置为 n / 4 n/4 n/4。例如对于stride=4的conv3_3预测层而言,Anchor的尺寸为 16 × 16 16\times 16 16×16,那么相当于在输入图像中每隔 4 4

最低0.47元/天 解锁文章
2748

被折叠的 条评论
为什么被折叠?



