浅析三维人脸有关技术的往昔与展望
摘要:现如今在电影和游戏业中,形态各异的三维人脸可谓比比皆是。从最开始抽象的表情、粗糙的架构,到现在好似真实人脸的栩栩如生,这正是计算机图形学几十年的发展所带来的成果。本篇文章将参考前辈们的五篇论文,来简要分析三维人脸技术的开端及发展该方向的意义,几十年来的进步,还有对未来的展望,最后对相关技术的发展进行一个简要的总结。希望能对其他对该方向有兴趣的同袍们给予一点小小的帮助。
关键词:人脸识别 人脸对齐 三维人脸 人脸检测 发展总结
一、三维人脸技术发展的意义及开端
在20世纪末,随着愈来愈多游戏以及电影中对高品质人脸建模的要求,三维人脸技术的研究被提上日程。在当时,计算机辅助人脸建模仍然需要大量的专业知识和手动控制,以避免不现实的、非人脸的结果。用于人脸合成、人脸动画或单个人脸外观的一般变化的自动化技术的大多数限制可以描述为在不同的人脸中找到相应的特征位置的问题,或者将真实的人脸与现实世界中永远不会出现的人脸分离的问题。对应问题对于所有变形技术都是至关重要的,无论是对于将运动捕获数据应用于图片或三维人脸模型,还是对于大多数基于图像的三维人脸重建技术。在一张脸上标记的有限数量的标记特征点,例如鼻尖、眼角和脸颊上不太突出的点,必须精确定位在另一张脸上。这就导致了对相关技术的高要求性,在有关应用需要使用时尤为艰难。
谈到三维人脸技术的开端,就不得不提Volker Blanz和Thomas Vetter在1999年发表的那篇著名的论文《A morphable model for the synthesis of 3D faces》。这篇文章中定义了第一个可以从照片序列中合成人脸并能表达各种表情的系统,开启了电影和游戏业界人脸数字化的先河。该篇文章中提到,在当时只有将所有点正确对齐,才能获得可接受的中间变形、从参考到新模型的令人信服的运动数据映射。自动匹配技术只能用于非常突出的特征点,如眼角和嘴角。此外,还有一个问题是如何将自然人脸和非人脸分离。许多应用都涉及到全新的自然面孔的设计,这些面孔可以出现在现实世界中,但却没有真实感。另一些则需要根据年龄、体重的变化对现有的面部进行操作,或者只是为了强调面部特征。这类工作通常需要耗费时间的体力劳动和带有一点艺术性的气息相结合才能完成。
幸运的是,Volker Blanz和Thomas Vetter在文章中提出了一个参数化的人脸建模技术,协助这两个问题。首先,系统可以同时创建任意人脸,控制生成人脸的可能性。其次,系统还能够计算新面孔之间的对应关系。通过利用三维人脸扫描数据集的统计特性,建立了一个可变形的人脸模型,并应用模式分类方法恢复了人脸变化的领域知识。可变形人脸模型是基于大量三维人脸扫描的线性组合的多维三维变形函数。通过计算数据集中的平均人脸和主要的变化模式,对变形函数施加概率分布以避免不可能的人脸。
二人工作的主要意义在于:通过构造一个能生成几乎任何人脸的参数化人脸模型,对应问题被改变成了一个数学优化问题!新的面孔,图像或三维人脸扫描,可以通过最小化新面孔之间的差异和重建的面部模型功能来被记录。两位前辈还开发了一种自动调整模型参数的算法。只需要最少的手动初始化,就可以实现目标的优化重建。因此,在该模型函数中参数化的所有人脸操作都可以映射到目标人脸。即使只有一张图片可用,关于人脸形状和纹理的先验知识也足以合理估计人脸的完整3D形状和纹理。当将该方法应用于一个人的多幅图像时,重建的质量甚至达到了激光扫描的质量。基于此系统,各种有关的研究进度大大加快,在接下来的三年亦被称为三维人脸技术发展的黄金年。
二、三维人脸技术的发展——人脸侦测
人脸检测的研究对目标识别的计算机视觉研究具有更广泛的意义,直接结果就是导致了两年内雨后春笋般的150多种人脸检测方法的报道。几乎所有基于模型或基于外观的三维物体识别方法都局限于刚性物体并试图在广泛的摄像机位置和照明条件下稳健地进行识别。其实,人脸检测其实可以看作是一个两类识别问题,其中图像区域被分类为“人脸”或“非人脸”,而对于这类对象,会存在大量的类内可变性。
此外,人脸检测也为潜在的模式分类和学习技术提供了有趣的挑战。当原始图像或滤波图像作为模式分类器的输入时,特征空间的维数非常大。人脸和非人脸图像的分类具有明显的多峰分布特征,有效的决策边界在图像空间中可能是非线性的。为了有效,分类器必须能够从少量的训练样本中推断,或者在处理大量的高维训练样本时是有效的。这也间接要求了分类技术的发展。
在2002年,两篇关于人脸侦测技术的重要论文被相继发表——Ming-Hsuan Yang, David J. Kriegman,Narendra Ahuja三人的 《Detecting Faces in Images: A Survey》和Rein-Lien Hsu, Mohamed Abdel-Mottaleb,Anil K. Jain三人的《Face Detection in Color Images》。前一篇主要关注人脸检测方法的优劣对比,后一篇则较为注重其中的色彩转换、光组件部分等各种具体技术。
随着新信息技术和新媒体的不断普及,越来越多的键盘、鼠标和显示器外的计算机交互方法被发展出来。此外,随着计算价格和视频图像采集成本的不断降低,计算机视觉系统可以被部署在桌面和嵌入式系统中。从图像中提取关于用户身份、状态和意图的信息,然后计算机相应地作出反应——快速扩展的人脸处理研究正是基于了这样一个前提。
许多研究示范和商业应用在此方向中努力发展。然而存在一个困难——任何人脸处理系统的第一步都是检测图像中人脸的位置,但由于人脸的尺度、位置、方向和姿态的变化,从单个图像中进行人脸检测实在是一项具有挑战性的任务。同时,面部表情、遮挡和照明条件也会改变面部的整体外观。
Ming-Hsuan Yang, David J. Kriegman和Narendra Ahuja给出了人脸检测的定义:给定一幅任意的图像,人脸检测的目标是确定图像中是否有人脸,如果有,则返回每个人脸的图像位置和范围。他们注意到,人脸定位的目的是确定单个人脸的图像位置,这是一个简化的检测问题,假设一个输入图像只包含一个人脸。人脸特征检测的目的是通过人脸图像来检测眼睛、鼻子、鼻孔、眉毛、嘴巴、嘴唇、耳朵等特征的存在和位置。人脸识别将输入图像与数据库进行比较,并报告匹配(如果有的话)。其目的是验证输入图像中个人身份的声明,而人脸跟踪方法持续实时地估计图像序列中人脸的位置和可能的方向。面部表情识别则涉及识别人类的情感状态(高兴、悲伤、厌恶等)。显然,人脸检测是任何自动化系统的第一步。
三人在文章中将人脸检测和人脸定位区分开来,将后者作为前者的一个简化问题进行处理。同时,他们重点研究了人脸检测方法而不是跟踪方法。在人脸检测方法中,基于学习算法的人脸检测方法在那几年来备受关注,并取得了良好的效果。由于这些数据驱动方法在很大程度上依赖于训练集,因此三人还讨论了几种适合于此任务的数据库。文中将检测率定义为正确检测到的人脸数与人类确定的人脸数之比,同时更正了如何检验方法的正确性,也就是公平评价中的基准数据集及其相关问题。
三、人脸对齐问题与不限姿势人脸识别
经过了多年的发展,三维人脸有关技术已日趋完善。在近几年来,有关研究主要聚集在新方向——人脸对齐问题上。此外还有一些对已经比较完善的人脸识别问题的进一步研究。
可以说人脸识别是近四十年来计算机视觉领域研究最为深入的课题之一。与指纹、虹膜和视网膜识别等其他流行的生物特征识别技术相比,人脸识别具有以非侵入方式识别不合作对象的潜力。因此,它广泛的应用于监控安全、边防、取证、数字娱乐等领域。从支付宝自动售货机,到从监控摄像机中识别犯罪嫌疑人,许多人脸识别方面的工作已经完成,并取得了巨大的进展。然而,这些成功的案例可能是不切实际的乐观,因为它们仅限于近正面人脸识别。最近的研究表明,世界上最好的NFFR算法在识别侧面的人脸时表现仍然较差。事实上,真实世界应用所期望的不限姿势的人脸识别的关键能力在很大程度上仍然没有解决。
PIFR指的是用在任意姿势下捕获的人脸图像来识别或授权个体的问题。 由于人脸识别本质上是一种被动的生物特征识别技术,能够识别不合作的对象,充分发挥人脸识别技术在现实生活中的应用潜力,因而受到越来越多的关注。例如,PIFR对于机场、火车站、银行和其他公共场所的生物特征安全控制系统非常重要,在这些地方,实时监控摄像头用于识别通缉犯。在这些场景中,受试者的注意力很少集中在监控摄像头上,而且他们的面部图像很有可能会出现较大的姿势变化。这时,面部外观的巨大变化就成了对最先进的面部技术的挑战。从本质上说,这是由于人头部的复杂的三维结构造成的。姿势变化引起的外貌变化往往显著超过个体间的内在差异。因此,在传统的人脸识别算法中,直接比较不同姿态下的两幅图像既不可能也不有效。
好在随着深度学习的出现和大型注释数据集的发展,即使在最具挑战性的计算机视觉任务中,最近的工作也已经显示出前所未有的准确性。CHANGXING DING 和 DACHENG TAO专注于地标定位,特别是面部地标定位(即面部对齐),取得了不错的效果。二人在文章中讨论了PIFR固有的困难,并对现有的四种PIFR方法(态鲁棒特征提取方法、多视点子空间学习方法、人脸合成方法和混合方法)进行了全面的回顾。此外,还对未来的研究方向进行了展望。
更关键的是,二人选择的技术不需要人工操作!沿着这条路径,二人构建、训练了一个强大的人脸对齐网络,并首次研究了所有现有的二维人脸对齐数据集和新引入的大规模三维数据集,距离达到接近饱和的性能还有多远。他们的主要成就如下:
1、首次构建了一个非常强大的基线,将最先进的地标定位体系结构与最先进的残差块相结合,并在一个非常大但综合扩展的二维人脸地标数据集上进行训练。然后对所有其他2D数据集进行评估,调查离解决2D人脸对齐还有多远。
2.为了克服三维人脸对齐数据集的不足,进一步提出了一种二维路标引导CNN,它将二维注释转换为三维1,并使用它创建了迄今为止最大和最具挑战性的三维人脸路标数据集LS3D-W,该数据集是通过统一几乎所有现有的数据集获得的。
3.在此基础上训练了一个三维人脸对齐网络,然后在新引入的大规模三维人脸地标数据集上对其进行评估,研究离解决三维人脸对齐还有多远。
4.进一步研究了影响人脸对齐性能的所有“传统”因素,如大姿态、初始化和分辨率,并引入了一个“新”因素,即网络的大小。
5.证明了二维和三维人脸对齐网络都达到了显著的精度,这可能接近饱和所使用的数据集。
引用文献:
1、《A Morphable Model For The Synthesis Of 3D Faces》,by Volker Blanz and Thomas Vetter, in 1999.
2、《Detecting Faces in Images: A Survey》,by Ming-Hsuan Yang, David J. Kriegman, and Narendra Ahuja in 2002.
3、《Face Detection in Color Images》,by Rein-Lien Hsu, Mohamed Abdel-Mottaleb and Anil K. Jain in 2002.
4、《A Comprehensive Survey on Pose-Invariant Face Recognition》,by CHANGXING DING and DACHENG TAO in 2016.
5、《How far are we from solving the 2D & 3D Face Alignment problem?》,by Adrian Bulat and Georgios Tzimiropoulos in 2017.
本文探讨了三维人脸技术的发展历程,从技术的起源到人脸检测、对齐等关键技术的进步,再到不限姿势的人脸识别等前沿研究。文章回顾了该领域的关键论文,并展望了未来的发展趋势。

被折叠的 条评论
为什么被折叠?



