CenterFace: Joint Face Detection and Alignment Using Face as Point

CenterFace是一种实时、高精度的单阶段人脸检测和对齐方法,尤其适用于资源有限的边缘设备。它通过将人脸表示为中心点,简化了检测和对齐问题,避免了传统锚点方法的复杂性。CenterFace在VGA分辨率下能达到200 FPS,同时在WIDER Face和FDDB基准上表现出高精度。这种方法通过学习人脸中心的概率和回归边界框及特征点,实现了一种轻量级且强大的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

  无约束环境下的人脸检测和对齐通常部署在内存有限、计算能力低的边缘设备上。本文提出了一种称为(CenterFace)的单阶段方法,可以实时快速、高精度地同时预测人脸边框和特征点位置。所提出的方法也属于无锚类。这是通过以下方法实现的:(a)通过语义地图学习人脸存在的概率(b)学习边界框、偏移量和可能包含人脸的每个位置的五个特征点。具体地说,该方法可以在单个CPU内核上实时运行,使用NVIDIA 2080TI以200 FPS的速度处理VGA分辨率图像,并且可以同时实现更高的精度(Wider Face Val/Test 简单:0.935/0.932,中等:0.924/0.921,困难:0.875/0.873和FDDB不连续:0.980,连续:0.732)。Center Face Demo可在以下网站获得:https://github.com/Star-Clouds/CenterFace.

1 引言

  人脸检测和对齐是计算机视觉和模式识别的基本问题之一,通常部署在移动和嵌入式设备中。这些设备通常具有有限的内存存储和较低的计算能力。因此,有必要同时预测人脸框和特征点的位置,而且速度和精度都非常好。
  近年来,随着卷积神经网络(CNN)的重大突破,人脸检测取得了显著的进展。以前的人脸检测方法继承了基于锚的通用目标检测框架的范例,可分为两类:两阶段方法(Faster RCNN[15])和一阶段方法(SSD[17])。与两阶段方法相比,一阶段方法具有更高的效率和查全率,但它往往会获得更高的误报率,并损害定位精确。然后,Hu等人[7]对区域建议网络(RPN)[15]采用两阶段方法直接检测人脸,而SSH[8]和S3FD[10]在单个网络中开发了一个尺度不变网络,用于检测不同层的多尺度人脸。
  以前基于锚的方法有一些缺点。一方面,为了提高锚框和真实框之间的重叠,人脸检测器通常需要大量密集锚来实现良好的召回率。例如,对于640×640输入图像,RetinaFace[11]中有超过100k的锚定框。另一方面,锚是一种超参数设计,是从特定数据集统计计算出来的,因此它并不总是适用于其他应用,这违背了一般性
  此外,通过使用VGG16[21]和resnet50/152[22]等大型预训练主干,目前最先进的人脸检测器在基准WIDER FACE[20]上实现了相当高的精度。首先,这些检测器很难在实践中使用,因为网络消耗了太多的时间,而且模型尺寸也太大。其次,如果没有人脸特征点的预测,则不利于人脸识别应用。因此,联合检测和校准以及精度和延迟的更好平衡对于实际应用至关重要。
  受无锚通用目标检测框架[1,3,6,14,15,25,26]的启发,本文提出了一种更简单、更有效的人脸检测和对齐方法CenterFace,该方法不仅轻量级而且功能强大。CenterFace的网络结构如图1所示,可以端到端进行训练。我们使用人脸边界框的中心点来表示人脸,然后人脸框的大小和特征点直接回归到中心位置的图像特征。因此,人脸检测和对齐被转化为标准的关键点估计问题[4,27,28]。热图中的峰值对应于面的中心。每个峰值处的图像特征预测人脸的大小和人脸关键点。对该方法进行了全面评估,并在大量人脸检测基准数据集上显示了最新的检测性能,包括FDDB[24]和WIDER FACE
在这里插入图片描述

  总之,这项工作的主要贡献可以概括为四个方面:
-通过引入无锚设计,人脸检测转化为标准的关键点估计问题,与以前的检测器相比,仅使用更大的输出分辨率(输出步长为4)。
-在多任务学习策略的基础上,提出了人脸作为点的设计,以同时预测人脸边框和五个关键点。
-本文提出了一种基于公共层的特征金字塔网络,用于准确快速的人脸检测。
-基于流行基准FDDB和WideFace以及CPU和GPU硬件平台的综合实验结果证明了该方法在速度和精度方面的优越性

2 相关工作

2.1级联CNN方法

  级联卷积神经网络(CNN)[29,30,31]的方法使用级联CNN框架来学习特征,以提高性能和保持效率。然而,基于CNN的级联检测器存在一些问题:1)这些检测器的运行时间与输入图像上的人脸数呈负相关。当人脸数增加时,速度会急剧下降;2) 由于这些方法分别优化每个模块,因此训练过程变得极其复杂。

2.2 锚方法

  受通用目标检测方法[16,17,25,26,35,36,37,38]的启发,人脸检测最近取得了显著的进步[7,8,9,10]。与一般的目标检测不同,人脸比例通常为1:1到1:1.5。最新的方法[9,11]侧重于单阶段设计,即在特征金字塔上密集采样面部位置和比例,显示出良好的前景,与两阶段方法相比,性能和速度更快[18,19]

2.3 无锚方法

  在我们看来,级联CNN方法也是一种无锚方法。然而,该方法使用滑动窗口检测人脸,并依赖于图像金字塔。它具有速度慢、训练过程复杂等缺点。LFFD[12]将RFs视为自然锚,可以覆盖连续的面部尺度,这只是定义锚的另一种方式,但使用两个NVIDIA GTX1080TI,训练时间约为5天。我们的“Center Face”仅通过边界框中心的一个点来表示人脸,然后直接从中心位置的图像特征回归人脸框大小和特征点。因此,人脸检测被转化为一个标准的关键点估计问题。NVIDIA GTX2080TI的训练时间仅为一天。

2.4 多任务方法

  多任务学习使用多个管理标签,通过利用任务之间的相关性来提高每个任务的准确性。联合人脸检测和对齐[27,29]被广泛使用,因为对齐任务与主干并行,为具有人脸点信息的人脸分类任务提供了更好的特征。类似地,Mask RCNN[5]通过添加用于预测对象掩码的分支,显著提高了检测性能。

3 CenterFace

3.1 移动特征金字塔网络

  我们采用Mobilenet v2[32]作为主干&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值