基于近红外帧差分的车辆个性化人脸识别
摘要
本文介绍了一套实用技术系统,旨在汽车市场中实现基于人脸识别的光照鲁棒性消费级生物识别系统。
当前大多数人脸识别系统在环境光照变化下准确性会受到影响。包括车辆个性化在内的户外应用为人脸识别带来了极具挑战性的环境。本研究旨在探索用于身份管理的实用人脸识别技术,在降低算法复杂度的同时提高系统对环境光照变化的鲁棒性。首先,提出一种结合主动近红外照明控制的帧差分方法,生成不受环境光照影响的图像。其次,提出一个包含前景/背景分割、运动检测、人脸检测、运动插值、姿态聚类和人脸识别模块的端到端人脸识别系统。结果表明,该帧差分方法使各模块对环境光照变化更具鲁棒性。在极端挑战性的户外光照和阴影条件下采集了车载应用视频,并用于测试各个模块。最后,提供了大量车载场景的测试结果以评估端到端系统。
索引术语
消费级生物特征识别,车辆个性化,人脸识别,近红外,光照不变性。
一、引言
普适与情境感知计算的支持者认为,通过了解用户身份来对应用进行定制化,可以显著提升用户对应用价值的感知[1]。这种价值的提升来源于可用性增强(如自动配置或定制化)以及用户感知到原本为共享资源的服务在虚拟意义上成为其专属资源,并反映出与其身份相关的有利属性,例如观点、情感或时尚。无数此类应用都依赖于对用户身份的识别而得以实现。
但如果用户身份被错误识别,不会造成显著的个人、身体或经济伤害。可用性是所有身份管理方法中的一个问题,进而会影响所使用应用程序的整体易用性。在消费类应用中,易用性非常理想,因此消费级生物特征识别应包含一个简单训练过程。系统的实际使用应当是无感的,操作应为自动,且无需直接用户配合。
本文所述技术的目标应用领域是面向汽车市场的生物识别。由于存在越来越多可解决的机遇和需求,这一应用领域颇具吸引力。传统的个性化应用理念包括自动调整车辆的物理属性,例如座椅和后视镜的位置。新的监管要求也起到了推动作用,例如需要为驾驶员配置和管理免提通信功能。新型车辆中引入的信息技术在数量和种类上不断增加,包括娱乐、电子邮件、导航、遥测以及驾驶辅助服务,这些功能均可以在某种程度上实现个性化。除了个性化之外,人们对新车的许多预期功能还将利用成像或视频实现其他目的,例如家长监督、驾驶员分心监测以及车辆的自主运行。因此,在车辆中使用基于图像的生物识别更具吸引力,因为成像硬件可在多种应用之间共享。目前,基于图像的生物识别技术尚未普遍应用于商用汽车中,但如果能够找到切实可行的解决方案,市场可能会增长。一些汽车制造商正在开发用于汽车安全、高级驾驶支持及其他任务的基于传感器的系统,这为上述发展趋势奠定了基础。
在这项工作中,使用人脸识别是因为它是一种经过充分研究的生物识别技术,同时采用静态和基于视频的图像采集 [2],并且具有非侵入式的特点,可能无需用户明确配合即可实现生物识别功能。在性能方面,本工作与之前的人脸识别研究相比一个有趣的差异在于消费级生物识别的概念,以及它如何改变生物识别设备设计的目标。
由于人脸识别是车辆个性化应用所选用的生物特征识别方式,本文提出的方法需要在白天和夜间均具有鲁棒性。在这方面,算法的选择和定制取决于视频采集模式。由于非侵入性是本应用的主要特点之一,传感器的选择以及照明器至关重要。最初选择使用彩色相机作为采集方式。这种相机在白天几乎可以完美工作,但在没有可靠光源的夜间却几乎无用。由于夜间没有阳光,需要人工光源照明器来辅助摄像头。根据算法的规格,该照明器可能需要持续开启或间歇性闪烁,而这两种情况都可能带来麻烦并进而使驾驶员感到困扰。因此,这一方案被排除,转而考虑探索使用红外(IR)光谱的建议。
红外光谱进一步分为四个子波段:近红外(近‐IR, 0.75‐1.4μm)、短波红外(SWIR,1.4‐3μm)、中波红外(MWIR,3‐8μm)和长波红外(LWIR,波长 8‐15μm)。长波红外也被称为热红外,因为该波段对应于接近室温物体的热辐射,包括略高于室温的人体。使用热红外的人脸识别方法在可见光波段的环境光照变化下表现出良好的鲁棒性[3]。然而,热红外图像对环境温度以及受试者的身体、情绪和健康状况不够鲁棒。此外,热红外的另一个问题是无法穿透眼镜。相比之下,近红外相较于热红外和可见光均具有优势。首先,近红外对人眼无感,但处于红外光谱的反射范围之内,因此可以利用主动近红外照明(如近红外发光二极管(LEDs))构建非侵入式夜间视觉系统。在白天,当存在来自太阳的环境近红外光照时,通常安装在摄像头镜头附近的主动近红外光源可以从正面照亮人脸,提供更可控的照明条件。其次,大多数 CCD和CMOS成像器件对近红外具有良好的响应,有助于实现低成本的系统设计。第三,与热红外不同,近红外不受体温影响,并能轻易穿透眼镜。因此,本研究仅考虑使用近红外[4]。
尽管多年来对此问题进行了大量积极的研究,光照不变人脸识别仍然是一个非常困难且具有挑战性的问题[5],[6]。在车载应用的户外环境中,光照条件在一天之内以及不同日期之间都会发生剧烈变化。此外,还可能存在由静态或移动物体投射的未知且高度可变的阴影。尽管人类在这些条件下仍能有效识别人脸,但现有的人脸识别算法表现不佳[6]。为解决光照问题,一种已被研究的方法是使用近红外照明来减弱环境光照的影响[7]。例如,Zhao和Grigat [8]提出了一种基于近红外的人脸识别系统,该系统以离散余弦变换系数作为特征,并采用支持向量机作为分类器。Kang et al [9]描述了一种用于车辆个性化的基于线性判别分析的人脸识别系统,并结合了近红外照明。Li et al [10]提出了一种使用局部二值特征的室内光照不变人脸识别系统。然而,作者指出他们的方法并不适用由于阳光中含有强烈的近红外成分,这对户外人脸识别造成了影响。Zou et al [11]表明,他们的照明方案能够消除室内环境光照变化。
II. 系统与硬件概述
本文所述用于车辆个性化中人员识别的系统高级概述如图1所示。前端为视频硬件,用于获取待识别驾驶员的视频。如前几节所述,非受控照明是人脸检测与识别系统的最主要问题。因此,为了在白天和夜间、非受控环境中实现高识别率,该系统在近红外频谱下运行,并通过红外 LED阵列提供近红外照明。由于CCD和CMOS图像传感器对近红外光敏感,而近红外光的频率略低于人眼可见范围,因此可通过红外光源无创地照亮驾驶员,并由对近红外波段敏感的摄像头记录视频。红外光源能够在环境光不足时提供额外照明,并填充面部深投影或附着阴影区域,从而补偿不规则的照明条件。此外,可通过光学滤波器去除近红外波段以外的环境光,进一步减少环境光照变化的影响。
由于CCD的灵敏度随着近红外波段波长的增加而降低,因此优选对人眼无感的最小波长。通常认为人眼无法看到超过700纳米的波长,但实验室自主进行的视觉测试证明其阈值约为850纳米。因此,选用了在880纳米处具有高输出、半功率带宽约为60纳米的近红外LED。摄像头镜头配备了880纳米的光学带通滤波器。照明部分采用由42个 LED组成的矩形阵列,分为七组并联网络,围绕摄像头布置,如图2(a)所示。通过安装座前端的DIP开关可以控制电路的总光输出,选择性地启用七组LED网络中的任意一组。图1(b)展示了车辆内摄像头与照明器的实验设置。
在视频采集期间,LED阵列通过来自摄像头的控制信号进行脉冲触发,以产生交替的序列
近红外照明和摄像头硬件示意图,(b) 安装在车辆中的硬件)
照明帧和环境帧[12]。照明帧和环境帧通过帧差法用于增强人脸识别在极端光照变化和阴影下的鲁棒性。在理想条件下,当人脸无移动时,开启LED阵列所成像的人脸与关闭LED阵列所成像的人脸之间的差异,将类似于仅开启 LED阵列时捕获的夜间图像。换句话说,帧差法可获得仅由LED灯照明的人脸图像,从而消除未知且高度变化的环境红外光,以及由遮阳板、后视镜和其他物体投射的阴影。因此,相比由室外光与红外LED阵列共同照明的人脸,差分帧的光照变化显著减少。由于差分图像的动态范围小于原始图像,因此原始图像需要更高的位深度。为此,图像采集采用每像素12位。图3展示了示例帧:图3(a)显示的是由车顶投射出强烈阴影的环境光帧,图3(b)显示的是照明帧。通过对(b)图与(a)图进行逐像素相减得到的差分帧如图3(c)所示。注意,该差分帧类似于仅由LED灯提供红外照明时在夜间所期望获得的图像。
参考图1,来自近红外成像系统的近红外视频帧经过多个步骤处理,以实现对驾驶员的人脸识别。首先,对照明帧和环境帧进行帧差法处理。然后,对差分帧进行处理,将前景物体(即候选驾驶员)与背景分离。接着,检查包含已检测到的前景物体的照明帧中帧间运动情况。静止或近静止的帧组被送入后续处理,其余帧则被舍弃。丢弃存在运动的帧的原因是,在进行帧差法时,面部的运动会严重影响差分图像,使人脸检测和人脸识别难以进行。对于那些几乎没有或没有运动的帧,采用维奥拉和琼斯提出的提升分类器的改进版本[13],仅在差分帧的前景区域中定位驾驶员的人脸。随后,应用基于卢卡斯‐坎纳德图像对齐的运动插值方法[14],进一步减少因面部轻微运动引入的运动伪影。接着对差分图像进行预处理,例如图像变换和强度归一化。最后,执行分层线性判别分析(h‐LDA),以确定每一帧中驾驶员的身份。在一段时间结束后,最终做出关于驾驶员身份的判定。以下各节将详细描述上述每个步骤。
III. 前景/背景分割
前景/背景分割方法被用作人脸定位的初步步骤。由于对于什么是前景或背景尚无标准定义,因此需要创建特定应用定义。在此车辆个性化应用中,摄像头在驾驶员进入车辆前所看到的区域被定义为背景,其他所有内容均被分类为前景。
帧差法通过将阈值应用于单个像素来实现鲁棒的分割。当考虑单帧(例如照明帧或环境光帧)时,没有关于前景和背景区域强度的先验知识。根据当前的照明条件,背景区域可能比前景区域更亮,或者相反,这使得难以实现合适的分割条件。然而,当考虑从连续的照明和环境光帧获得的差分帧时,存在关于像素强度的先验知识,即前景像素比背景像素更亮。理想情况下,在静态环境中,差分帧会突出显示受LED照明影响较大的区域。这一现象的原因可以通过光的物理原理来解释。观察到照明器发出的光强以 $1/R^2$ 的速率衰减,其中 $R$ 是从照明器出发的径向距离到被照亮的区域。由于前景区域通常比背景更接近光源,因此看起来更亮。随后可以应用阈值方法,根据像素强度将其分类为背景或前景。如果像素的强度高于阈值,则该像素被分类为前景像素;否则被分类为背景像素。
第一步是为差分帧中的每个像素确定一个用于比较的阈值。背景像素强度的范围可能因相机设置和车内环境而异。然而,在整个视频过程中,该强度范围发生变化的概率极低。因此,视频中第一帧差分帧(即背景场景的差分帧)的最大强度值是一个合适的阈值候选。但最大强度值不够鲁棒,因为它容易受到摄像头产生的噪声、车辆抖动或外部移动光源的影响。因此,采用99.9%百分位数的1.1倍作为阈值。
阈值用于对来自视频的输入差分帧进行前景/背景分割。首先,差分帧被均匀下采样8倍以减少计算时间。考虑到分割过程的目的仅仅是找到候选面部的大致位置,空间分辨率的降低是可以接受的。下采样差分帧在应用阈值后被转换为二值化图像。然后对二值化图像应用中值滤波器,接着进行膨胀与腐蚀操作。图4展示了一个典型的图像序列经过此处理过程的示例。
IV. 运动检测
尽管帧差法被用于解决许多光照相关问题,但它对帧间运动非常敏感。事实上,如果发生运动,差异图像很可能包含随机伪影;因此,需要使用运动检测器来确定帧间是否存在运动。MPEG‐2、MPEG‐4、DivX以及其他基于运动的编解码器中使用的方法旨在客观地在帧集合中量化运动;但这些方法具有很高的计算复杂度。此处实现的运动检测器的目标是使用简单的度量来建议何时保留或丢弃帧。运动检测仅在照明帧上运行,因为它们的拍摄条件比环境光帧具有更好的照明条件。
给定一对帧,其中一帧被选为参考帧,另一帧被选为比较帧。运动矢量通过计算参考帧与比较帧之间区域的相关性得出。如图5所示,在参考帧中以点(x, y)为中心的大小为M×N的块,称为模板块,与比较帧中以点(x,y)为中心的2M×2N搜索窗口内的相应块进行相关运算。最佳匹配由归一化互相关[15]的最大值确定:
$$
\gamma(u,v) = \frac{\sum_{(x,y)} [f(x,y) - \bar{f}][t(x+u,y+v) - \bar{t}]}{\sqrt{\sum_{(x,y)} [f(x,y) - \bar{f}]^2 \sum_{(x,y)} [t(x+u,y+v) - \bar{t}]^2}}
$$
其中 $f$ 是 $2M \times 2N$ 搜索窗口内的图像,$t$ 是模板块,$\bar{t}$ 是模板的均值,$\bar{f}$ 是模板下 $f$ 的均值。在本研究中,$M = N = 30$ 像素。最大相关系数所在位置与搜索窗口中心之间的距离定义了给定模块的平移方向和幅度。
带有模板块的参考帧 (b) 带有相应搜索窗口的比较帧 (c) 模板块与搜索窗口之间的最佳匹配 (d) 计算的运动矢量)
一旦驾驶员进入车辆并坐定,可以认为驾驶员面部最终会位于画面中心附近。因此,(1) 中给出的归一化互相关将专注于检测靠近画面中心的运动矢量。因此,运动矢量在靠近画面中心的区域内进行计算,如图6所示,其中网格表示模板块的位置。每个块与其对应的搜索窗口进行相关运算以生成运动矢量。这些运动矢量的集合称为运动场。本运动检测器的实现中使用了 $11 \times 11$ 个模板块组成的网格。
一旦确定了运动场,所有向量的长度将被累加以作为度量 $\beta$,用于确定帧内的运动量。
$$
\beta = \sum_{i \in MV} l(i)
$$
其中 $MV$ 是运动矢量的集合,$l(i)$ 是使用 $L_2$ 范数计算的第 $i$ 个运动矢量的长度。
运动检测器的训练集由1000帧对组成,每对帧中包含很少或没有运动。每对帧的运动场的幅度使用(2)计算,其在训练集上的分布如图7所示。
图8所示的指数分布是基于训练集分布的均值估计得到的。指数分布的公式为:
$$
p(x) = \frac{1}{\mu} e^{-x/\mu}
$$
其中,$\mu$ 是数据集的样本均值。在对测试数据的一个小子集结果进行目视检查后,选择指数分布的累积分布函数(CDF)中对应于 80%百分位数($\tau$)的值作为阈值,用于分类帧间运动存在。所使用的经验值为:
- Near Still if $\beta \leq \tau$
- Unknown or motion present if $\beta > \tau$
如果运动场被分类为静止,则将相应的参考帧转发给人脸检测器;否则,该帧将被拒绝。
V. 人脸检测
本系统中实现的人脸检测器利用差分帧来寻找驾驶员的面部。通过前景/背景分割,人脸检测器的搜索范围被进一步缩小。随后,采用维奥拉和琼斯提出的提升分类器的改进版本进行人脸检测[13],[16]。检测完成后,候选人脸区域将被送入运动插值和人脸识别阶段进行进一步处理。借助帧差法,该人脸检测器即使在光照较弱或不均匀的情况下也能取得良好的效果。图8展示了在一个示例性的环境光、照明和差分帧三元组上的人脸检测结果。在环境光帧中,人脸检测器未能检测到正脸;而在照明帧中,虽然检测到了人脸,但检测到的人脸尺寸小于实际人脸尺寸。相比之下,当使用差分帧时,人脸检测器成功完成了检测。
实验结果表明,与环境光帧和照明帧相比,使用差分帧可以获得更高的人脸检测率。具体而言,基于来自10个视频序列的4302对包含正脸的环境光和照明帧,人工确定了环境光帧、照明帧和差分帧的人脸检测结果。表I列出了相应的错误率。其中,漏检指人脸检测器未能检测到正脸,误检指检测出的区域并非人脸。所有漏检和误检情况均在4302帧被统计并报告了错误率。如表所示,差分帧的漏检率和误检率均为最低。不出所料,环境光帧的漏检率和误检率均最高。从这些结果可以看出,LED照明提高了人脸检测率,而帧差法进一步提升了性能。当在差分帧中检测到单个人脸时,将其裁剪后传递至人脸识别阶段进行进一步处理。如果检测到多个人脸,则将最大人脸区域视为目标人脸,并传递至下一阶段。
未成功检测的环境光帧、(b)照明帧和(c)差分帧上进行。(b)和(c)中,根据检测到的人脸区域的大小和方向确定了眼睛的位置)
| 帧类型 | 漏检率 (%) | 误检率 (%) |
|---|---|---|
| 环境 | 11.04 | 1.22 |
| 被照亮 | 4.63 | 1.01 |
| 差异 | 1.40 | 0.94 |
*表I 人脸检测错误率比较(%)
VI. 运动插值
帧差法涉及像素对像素对应,照明帧与环境光帧之间即使存在微小的错位也可能导致伪影,并降低人脸识别性能。因此,除了运动检测外,还需要非常精确的图像配准或运动补偿。为了补偿此类运动,将卢卡斯‐坎纳德图像对齐[14]应用于连续照明帧中检测到的人脸区域,以进一步减少因人脸轻微移动而引入的运动伪影。
设 $I_t(x)$ 为时间 $t$ 的照明帧,$A_{t+1}(x)$ 为时间 $(t+1)$ 的环境光帧,$I_{t+2}(x)$ 为时间 $(t+2)$ 的照明帧,其中 $x = (x,y)^T$ 为像素坐标。图像 $T(x)$ 是 $I_t(x)$ 中检测到的人脸区域。其中向量 $p_0 = (p_{0,1},…, p_{0,n})^T$ 是对应于 $I_t(x)$ 中检测到的人脸位置的参数向量,$W(x;p)$ 是将图像 $T(x)$ 中的像素映射到图像 $I_t(x)$ 中位置的形变函数,检测到的人脸图像 $T(x)$ 可表示为
$$
T(x) = I_t(W(x;p_0)).
$$
卢卡斯‐坎纳德图像对齐通过迭代寻找相应的参数向量 $p$,在时间$(t+2)$的照明帧中找到与人脸图像$T(x)$最佳匹配的图像区域。假设运动是线性的,则在环境光帧$A_{t+1}(x)$中人脸的估计位置如下:
$$
W’\left(x; \frac{p_0 + p}{2}\right).
$$
然后,差分人脸图像是$T(x)$与在$A_{t+1}(x)$中估计的人脸区域之间的差异:
$$
\text{Difference Face} = T(x) - A_{t+1}\left(W’\left(x; \frac{p_0 + p}{2}\right)\right).
$$
VII. 人脸识别
在用于人脸识别的众多方法中,基于外观的子空间方法是最受欢迎的方法之一,主要因其在受控或半受控环境中的成功表现以及计算简单性。两种流行的基于外观的子空间分析方法是特征脸和费舍尔脸。特征脸等同于主成分分析(PCA)[17],而费舍尔脸是主成分分析(PCA)与线性判别分析(LDA)的结合[18]。PCA通过寻找一组具有代表性的投影向量来实现降维,使得样本集的投影能够保留原始样本集的大部分信息。另一方面,LDA利用类别信息寻找一组向量,以最大化类间散度并最小化类内散度[19]。
然而,LDA 假设每个类别都由一个单模高斯分布建模,且仅通过一阶和二阶统计量(即均值和协方差)即可完全描述。实际上,并不能保证数据符合此类假设。当数据显著依赖于聚类标签以外的其他因素时,对应于特定标签的数据无法简单地用具有单一均值和协方差的单模高斯分布来建模。
一种称为分层LDA(h‐LDA)的新方法被用于基于数据中具有深度2的层次结构[20]构建新的特征提取方法。在 h‐LDA中,簇被认为包含多个子簇,这些子簇由与目标聚类标签不同的其他因素决定,并且这些子簇不必像单模高斯模型中那样紧密聚集。基于这一动机,h‐LDA保持了对 LDA所存在的过拟合问题的控制能力。本文中使用k均值聚类来学习子簇结构。
训练和测试数据集中的所有图像都经过一个预处理阶段。该阶段包括图像配准、掩膜和像素值归一化。图像配准通过旋转和平移人脸图像,尝试将眼睛重新定位到预先定义位置。对于训练集,眼睛位置是手动确定的,并根据眼睛位置对人脸图像进行旋转和平移。对于测试集中的探针和图库图像,由人脸检测器定位的人脸区域在不进行旋转的情况下进行配准。
然后使用掩膜技术,仅考虑人脸边界内的像素。随后对像素值进行归一化处理,使其具有零均值和单位标准差。在归一化之前,将像素强度截断在最大强度值的99%百分位数对应的水平,以减少镜面反射带来的噪声。镜面反射取决于光源相对于人脸的位置,应予以抑制,以降低对光源因素的依赖性。
进行了一项实验,以验证在高度变化的光照条件下,采用h‐LDA进行帧差法在人脸识别中的有效性。通过报告人脸帧在有阴影(由车顶或遮阳板等物体投射)和无阴影情况下的人脸识别率,来展示在各种阴影条件下的鲁棒性。从视频流中手动选取了40名受试者的近正面人脸帧。这些帧被分为两个子集:带阴影的人脸帧和无阴影的人脸帧。阴影子集包含1885个三元组的人脸帧,每个三元组由一个照明帧、一个环境光帧和一个差分帧组成。类似地,无阴影子集包含1786个帧三元组。每位受试者的三元组总数各不相同。在预处理步骤中,对人脸帧进行了配准、掩膜和归一化处理。图9(a)显示了阴影子集中的样本人脸三元组,图9(b)显示了无阴影子集中的样本人脸帧三元组。在图9中,每一列对应一个受试者的一个三元组。第一行对应照明帧,第二行对应环境光帧,第三行对应差分帧。对于每个样本帧,其对应的差分帧中大部分阴影明显被去除。
然后通过随机选择的帧进行多次人脸识别,并报告环境光、被照亮和差分帧情况下的平均识别率。该实验的步骤如下:从特定子集中为40个受试者中的每一个随机选取一帧作为库帧;同样,从特定子集中为每个受试者再随机选取另一帧作为查询帧。因此,库集和查询集各包含40帧,对应40个受试者。由于有两类子集(阴影和无阴影)可用于选择库帧和查询帧,因此实际上共有四种方式来组合生成库集和查询集,如表二和表三的第一列和第二列所示。对这四种排列组合的每一种,均执行10,000次迭代的 Fisherface识别。每次迭代后,都通过从子集中随机选择帧来生成新的库集和查询集。每种排列组合的平均识别率在表二和表三中列出。整个实验针对不同选择的训练数据集重复进行。CMU PIE数据库[21]和CBSR近红外数据库[10]被选为候选训练数据集。CMU PIE数据库包含来自多个民族群体的68名受试者的超过40,000帧图像,且包含了姿态和光照的变化。数据采集使用了十三台Sony DXC 9000(3CCD,逐行扫描)摄像头,增益和伽马校正关闭。CBSR近红外数据库包含197名亚洲族裔人员在固定850纳米波长的近红外照明下采集的3940张近红外人脸帧。第一个候选训练集仅使用CMU PIE数据库中的正面人脸帧构建,每个受试者约108帧,总共7372帧。第二个候选训练集使用CBSR近红外数据库中无眼镜的人脸帧构建,每个受试者约17帧,总共3329帧。
| 画廊 Set | 探测 Set | 环境 | 被照亮 | 差异 |
|---|---|---|---|---|
| 无阴影 | 无阴影 | 0.9987 | 1.0000 | 0.9987 |
| 阴影 | 阴影 | 0.8261 | 0.8499 | 0.9729 |
| 无阴影 | 阴影 | 0.2656 | 0.4388 | 0.8933 |
| 阴影 | 无阴影 | 0.2739 | 0.5901 | 0.9537 |
表二 使用CBSR的人脸识别率
| 画廊 Set | 探测 Set | 环境 | 被照亮 | 差异 |
|---|---|---|---|---|
| 无阴影 | 无阴影 | 0.9993 | 0.9987 | 0.9965 |
| 阴影 | 阴影 | 0.7998 | 0.8313 | 0.9443 |
| 无阴影 | 阴影 | 0.3361 | 0.3548 | 0.8752 |
| 阴影 | 无阴影 | 0.2602 | 0.4259 | 0.8261 |
表III 使用CMU PIE的人脸识别率
表二和表三表明,帧差法能够实现对光照变化具有鲁棒性的人脸识别系统。对于环境光帧,当探测集和库集来自相同数据子集,即阴影子集或无阴影子集时,人脸识别率较高。当探测集和库集来自不同子集时,人脸识别率较低。从所有情况下的照明帧识别率高于环境光帧可以看出,LED照明本身有助于提高识别率。差分帧的识别结果相比照明帧有显著提升,尤其是在阴影帧与无阴影帧的对比中。使用CBSR近红外数据库进行训练的结果优于使用CMU PIE数据库进行训练的结果,因为CBSR近红外数据库由近红外帧组成,而CMU PIE数据库由可见光帧组成。
VIII. 姿态聚类
最后一个模块是结合姿态聚类的基于视频的人脸识别。注册视频经过上述模块处理:帧差法、前景分割、运动检测、人脸检测、运动插值、预处理以及投影到h‐LDA子空间。随后,投影后的h‐LDA特征被聚类为9种不同的姿态。这些聚类中心存储在系统中,代表驾驶员的不同姿态,从而提高系统对姿态变化的鲁棒性。一段未知驾驶员的探针视频输入系统后,也经过相同的模块处理。每个检测到的正脸图像的身份通过最近邻算法进行判定。在h‐LDA子空间中,与探针图像距离最小的注册聚类中心的身份即决定该探针图像的身份。最终对探针视频的判定由基于图像的识别结果通过多数投票得出。
IX. 性能评估
在车辆中使用交替近红外照明录制了40名驾驶员的194段视频。每段视频长约20秒,在包括直射阳光和投影阴影在内的各种极端户外光照条件下拍摄。图4显示了8名不同驾驶员检测到的人脸区域。通过该视频数据集对具有姿态聚类的端到端基于视频的人脸识别系统进行性能评估。库集包含40名驾驶员的40段视频,测试集包含另外40名驾驶员的40段视频。库视频和测试视频的选择在100次重复实验中进行了轮换。表IV展示了本文提出的端到-end系统在基于图像和视频识别方面的实验结果,并与最先进的光照不变特征方法(包括局部二值模式(LBP)[22]和梯度脸[23])进行了比较。实验结果表明,本文提出的方法优于这两种光照不变特征方法。此外,光照不变特征方法还可应用于本文提出系统的输出图像,以进一步提高人脸识别率。该端到-end系统在配备32位单核处理器的笔记本电脑上以30帧每秒的速度运行,运行频率为1.86吉赫兹,为消费电子设备提供了高性价比解决方案。
| 方法 | 基于图像的 (%) | 基于视频的 (%) |
|---|---|---|
| LBP | 69.1 | 77.2 |
| 梯度脸 | 71.9 | 82.3 |
| 本文提出的方法 | 88.1 | 93.4 |
| 本文提出的方法 + 局部二值模式(LBP) | 92.3 | 96.1 |
| 本文提出的方法 + 梯度脸 | 92.9 | 96.6 |
表IV 人脸识别率比较(%)
X. 结论
本文提出了一套实用技术方案,旨在实现一种基于人脸识别的光照鲁棒性消费级生物识别系统,适用于汽车市场,并最终形成低成本、易于部署的解决方案,从而支持多种可通过个性化获益的应用。文中提出了结合主动照明控制的帧差法,并证明该方法能够生成不受环境光照影响的图像。介绍了端到-end系统中的前景/背景分割、运动检测、人脸检测、人脸识别和姿态聚类模块,并通过测试结果展示了使用差分帧在各模块上带来的性能提升。在极端复杂的光照和阴影条件下采集的测试视频上对端到-end系统进行测试,结果表明该系统在车载应用场景中实现了高精度的人脸识别。
28

被折叠的 条评论
为什么被折叠?



