人脸检测--SSH: Single Stage Headless Face Detector

论文题目《SSH:Single Stage Headless Face Detector》
作者 Mahyar Narjibi 与 Pouya Samangouei 2017
代码地址:https://github.com/mahyarnajibi/SSH

论文背景

SSH为single stage headless的缩写,为单阶段检测器。所谓的headless指的就是只保留基础网络,将原始分类网络中的全连接层去掉的意思,比如VGG16中的全连接层。这样做可以去掉大量的参数,同时加速运算,毕竟卷积的运算量和参数量相比全连接来说少了太多。相比较别的算法在检测不同尺度的人脸时所采用的图像金字塔,SSH中采用的是特征金字塔,也就是使用了卷积层的特征,有点SSD的意思。作者对卷积层使用了3种类型的检测模块,利用不同的卷积步长来同时检测大、中、小三种人脸。相比较基于RPN的网络,SSH不再是先用RPN生成anchor,然后进行分类和回归,而是直接进行分类和回归。在速度上会有5倍以上的提升,如果同时采用图像金字塔的话,会在精度上有进一步的提升,但是会导致网络前向变慢。

摘要

我们介绍了单点无头(SSH)人脸检测器。与两阶段提议分类检测器不同,SSH直接从分类网络中的早期卷积层以单阶段方式检测人脸。 SSH没有头部。也就是说,它能够在移除其底层分类网络的“头部”的同时实现最先进的结果 - 即VGG-16中包含大量参数的全连接的层(注:其实就是移除了VGG 的三个全连接层)。此外,SSH不是依靠图像金字塔来检测具有各种尺度的人脸,而是通过设计进行尺度不变。我们同时在网络的单个前向传递中检测具来自不同层不同尺度的人脸。这些属性使SSH快速且轻量级。令人惊讶的是,使用无头的VGG-16,SSH在WIDER数据集上击败了基于ResNet-101的最好的算法。尽管如此,与当前最好的算法不同,SSH不使用图像金字塔,速度提高了5倍。此外,如果部署了图像金字塔,我们的轻量级网络可以在WIDER数据集的所有子集上实现state of the art 结果,将AP提高2.5%。 SSH还可以在FDDB和Pascal-Faces数据集上使用较小的输入大小达到state of the art的结果,从而在GPU上实现50 ms /image的运行时间。

  • Single Stage Headless Face Detector” 中的 “headless”含义:在分类CNN网络的基础上移除了全连接层(fully connected layer);
  • 具有尺度不变性特征:使用特征金字塔(feature pyramid),而非图像金字塔(image pyramid);
  • 由此产生的优点:速度快、轻量级;
    注解一:
    
    最先进的基于CNN的检测器 将图像分类网络 转换为 两阶段检测器。
    
    * 在第一阶段,分类网络中,前面的卷积层用于提出一组候选框。  
    * 在第二阶段,分类网络的剩余层(全连接层,例如VGG-16中的fc6~8 ),我们称之为网络“头”,用于提取这些候选框的局部特征并对它们进行分类。
      分类网络的头部计算代价很大(例如, VGG-16网络头包含大约120M个参数,ResNet-101网络头包含大约12M个参数)。
      而且在两阶段检测器中,必须在所有提出的候选框上都计算一次。
    
    SSH是单阶段检测器,它移除了分类网络的头部(全连接层),从分类网络的卷积层直接检测人脸。
    
    注解二:
    
    目前检测模型针对不同尺寸图片的检测主要有两种策略:图像金字塔、特征金字塔。
    
    * 使用图像金字塔 需要将各个比例的图像 都传递到非常深的网络,必然会大大增加检测计算量,降低检测速度;
    * 图像金字塔和特征金字塔相比,更有助于能够提升检测的准确率。
    
    SSH采用的是特征金字塔的策略。

引言

  • 目前存在问题:虽然目前人脸检测的性能已经有了飞跃的提升但是在同时考虑速度和内存利用有效性的情况下,小人脸的检测还存在很大的挑战(WIDER数据集中就包含大量的小人脸);
  • 提出一个解决方案SSH:基于去掉head的CNN分类网络,使用特征金字塔代替图像金字塔设计出one stage人脸检测算法;
  • 在各数据集上的表现:WIDER上配合图像金字塔可以在三个子集都达到最好的性能,FDDB和Pascal-Faces在相对小的输入尺寸的情况下能够达到最好的性能;(注:是在论文发表时的最好性能)

 

人脸检测是验证、识别、表情分析等各种问题的关键环节。从Viola-Jones检测器到Hu等人最近的工作,人脸检测器的性能得到了极大的提高。然而,检测小面孔仍然被认为是一项具有挑战性的任务。最近推出的包含大量小面孔的WIDER FACE人脸数据集,暴露了人类与现有人脸检测器之间的性能差距。当考虑到探测器的速度和存储效率时,这个问题变得更具挑战性。性能最好的人脸检测器通常速度较慢,并且具有较高的内存占用(例如处理一个图像需要1秒以上的时间),部分原因在于大量的参数,以及处理尺度或上下文合并的鲁棒性的方法。

最先进的基于cnn的检测器将图像分类网络转化为两阶段检测系统。在第一个阶段,早期的卷积特征图被用来提出一组候选对象框。在第二阶段,我们部署了分类网络的其余层(如VGG-16中的fc6~8),我们称之为网络“head”,为这些候选对象提取局部特征并进行分类。分类网络中的头部在计算上是昂贵的(例如,VGG-16中的头部大约包含120M参数,ResNet-101中的头部大约包含12M参数)。此外,在两阶段检测器中,必须对所有建议的候选框进行计算。

最近,Hu等人通过使用类似于区域建议网络(RPN)[24]的方法直接检测人脸,在WIDER FACE检测基准上展示了最新的结果。将图像金字塔作为该方法的一个组成部分,实现了对输入尺度的鲁棒性。然而,它需要处理一个输入金字塔,每边向上采样高达5000像素,并将每一层传递到一个非常深的网络,这增加了推理时间。

 本文介绍了一种单点无头人脸检测器。SSH在单个阶段执行检测。与RPN[24]类似,分类网络中的早期特征映射用于将一组预定义的anchor来进行人脸回归。然而,与两阶段检测器不同的是,最终的分类和anchor的回归是同时进行的。SSH是无头部网络的。它能够达到state of  the art的结果,同时删除其底层网络的头部(即VGG-16中所全连接层)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值