照相机的发明满足了人们记录生活的需求,为了用光影记录下最美丽的事物,越来越多的消费电子产品集成了拍照功能,例如手机。对于某些产品来讲,拍照是核心的功能,这类产品包括安防IPC, 数码相机等等。在使用这些产品时,最好的拍摄角度是面对镜头抓拍正面人脸。但是对于实际应用场景中快速运动的人体场景来说,高质量的人脸抓拍依赖于人脸检测和人脸打分评价两项技术。随着当前AI技术的快速发展,人脸检测的准确率已经达到了非常高的精度,并且可以基于人脸检测算法同时得到人脸位置和五官坐标信息。这里介绍一种低成本的正面人脸评价算法,基于五官坐标信息,对检测到的人脸进行正面程度的评价,本算法无需异构算力(比如神经网络加速器)支持,仅依靠少量CPU的通用算力即可实现抓取正面人脸,实时性好。可以应用于智能IPC,智能抓拍相机等产品下的人脸质量抓拍应用场景中。
当前基于CNN深度学习神经网络,可以以很高的精度对人脸目标进行检测,但是在很多应用场景中,仅仅检测出人脸框以及五官的位置是不够的,有些场景还需要得到人脸面对镜头的角度数据,从而作为确定自动抓拍的时机的依据,传统的做法基于人脸检测网络的检测结果作为输入,再训练另一个CNN网络获取人脸角度信息,这类方法走的是CNN深度学习的技术路线,依赖包含不同场景下的人脸图像的数据集,并且花时间对网络进行训练。最终部署时,为了达到预期的检测帧率,还要根据网络规模和算力需求,在端侧搭载合适的神经网络加速器,这样做不但提高了方案的复杂度,也增加了方案成本。这是目前行业内的主流的技术方案。
现有人脸姿态评价依赖神经网络技术,技术复杂度和实现成本均较高,本发明提出了一种基于五官坐标(包括左眼,右眼,鼻,左侧嘴角以及右侧嘴角)的人脸姿态判别方法,通过此方法,可以迅速获取图像中人脸的姿态数据,抓取正面人脸图像,此场景可以应用于消费电子领域的人脸质量抓拍。
方案原理
本方案原理是,首先采集样本集中的正脸图像的五官坐标数据,利用坐标数据为每张脸生成五官间距离向量,再对所有采集的人脸距离向量求算数平均,得到人脸五官间距的golden向量,之后,以此向量作为参考,对所有采集到的五官数据进行评价,评价算法采用余弦相似度。在高维空间中,与参考向量之间夹角越小,计算得到的余弦相似度越大,则越接近于正脸位姿的拍摄。
人脸姿态评价方法分为四步进行操作:
第一步,获取数据集中正面人脸的五官坐标数据,五官坐标点包括(左眼,右眼,鼻,左侧嘴角以及右侧嘴角的坐标),获取方式可以使用基于CNN的人脸检测网络。
第二步,生成正五官距离向量,对第一步获取到的五官数据,依次计算出每张图像五官距离向量,距离向量中的元素是任意两个五官之间的距离,根据排列组合理论可知,五官距离向量应当包含10个元素,计算方法如下:
距离向量内容包括:
五官距离向量=[左右眼距,左眼鼻距,左眼左侧嘴角距,左眼右侧嘴角距,右眼鼻距,右眼左侧嘴角距,右眼右嘴角距,鼻左嘴角距,鼻右嘴角距,左嘴角右嘴角距].
第三步,对所有图像的五官距离向量求平均,得到五官均值向量,作为golden向量。
第四步,针对实测抓取的人脸五官坐标,按照第二部相同的操作计算得到五官距离向量,和第三步生成的golden向量做余弦相似度计算,得到相似度指数,取值范围为[0,1].
第四步生成的相似度指数可以作为人脸姿态的评价指标,值越接近于1,则说明拍摄角度越好,人脸姿态越接近正脸面对镜头。
技术原理
我们知道,高维空间中的两个向量,他们的相似度可以用两个向量之间的夹角来表示,在二维空间中,这个规律非常的明显和直观,如下图所示:

从原点触发的两个向量u,v,他们的夹角的余弦可以表示为:

当两个向量方向重合时,余弦相似度为1,表示两个向量相似度达到最大值。
以上原理不止适用于二维空间,在更高维的空间下,以上规律仍然适用,对于本实现来说,一共有五个坐标,每两个坐标之间的距离看成一个维度方向,这样五官向量一共有10个维度,我们将在10维的空间中计算余弦相似度.
第一步,获取正脸数据集的五官坐标:
利用训练好的人脸检测深度学习神经网络,获取数据集中正脸图像的五官坐标,如下图所示:

第二步:生成五官向量
规定左眼,右眼,鼻,左侧嘴角以及右侧嘴角的坐标序号依次分别为0,1,2,3,4,则五官坐标可以依次表示为:
则五官向量u可以表示为:

第三步,生成godlen五官向量.
每张人脸图像将会获得一个五官向量,通过对所有人脸图像的五官向量求算数平均,将得到golden版的五官向量.
如下公式所描述:

第四步,针对实际场景中获取到的人脸五官坐标数据,首先根据第二步的操作,计算得到五官向量,之后再计算其与golden版的五官向量的余弦相似度,将计算结果作为人脸姿态的评价指标。余弦相似度的计算公式表示如下,其中向量f为实际场景抓取的五官向量.

程序检测流程

按照上述流程进行操作,应用即可抓拍一张最接近正脸的图像出来。

该文介绍了一种低成本的人脸姿态评价方法,利用五官坐标信息计算余弦相似度,评估人脸是否正对镜头。这种方法无需额外的神经网络加速器,适合智能IPC和抓拍相机等人脸质量抓拍应用场景。
7875

被折叠的 条评论
为什么被折叠?



