一种基于五官坐标的人脸姿态评价方法

原创已于 2022-07-04 07:16:04 修改 · 875 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

于 2022-07-03 19:03:44 首次发布

人工智能同时被 2 个专栏收录

155 篇文章

订阅专栏

工程

52 篇文章

订阅专栏

该文介绍了一种低成本的人脸姿态评价方法，利用五官坐标信息计算余弦相似度，评估人脸是否正对镜头。这种方法无需额外的神经网络加速器，适合智能IPC和抓拍相机等人脸质量抓拍应用场景。

照相机的发明满足了人们记录生活的需求，为了用光影记录下最美丽的事物，越来越多的消费电子产品集成了拍照功能，例如手机。对于某些产品来讲，拍照是核心的功能，这类产品包括安防IPC, 数码相机等等。在使用这些产品时，最好的拍摄角度是面对镜头抓拍正面人脸。但是对于实际应用场景中快速运动的人体场景来说，高质量的人脸抓拍依赖于人脸检测和人脸打分评价两项技术。随着当前AI技术的快速发展，人脸检测的准确率已经达到了非常高的精度，并且可以基于人脸检测算法同时得到人脸位置和五官坐标信息。这里介绍一种低成本的正面人脸评价算法，基于五官坐标信息，对检测到的人脸进行正面程度的评价，本算法无需异构算力（比如神经网络加速器)支持，仅依靠少量CPU的通用算力即可实现抓取正面人脸，实时性好。可以应用于智能IPC，智能抓拍相机等产品下的人脸质量抓拍应用场景中。

当前基于CNN深度学习神经网络，可以以很高的精度对人脸目标进行检测，但是在很多应用场景中，仅仅检测出人脸框以及五官的位置是不够的，有些场景还需要得到人脸面对镜头的角度数据，从而作为确定自动抓拍的时机的依据，传统的做法基于人脸检测网络的检测结果作为输入，再训练另一个CNN网络获取人脸角度信息，这类方法走的是CNN深度学习的技术路线，依赖包含不同场景下的人脸图像的数据集，并且花时间对网络进行训练。最终部署时，为了达到预期的检测帧率，还要根据网络规模和算力需求，在端侧搭载合适的神经网络加速器，这样做不但提高了方案的复杂度，也增加了方案成本。这是目前行业内的主流的技术方案。

现有人脸姿态评价依赖神经网络技术，技术复杂度和实现成本均较高，本发明提出了一种基于五官坐标(包括左眼，右眼，鼻，左侧嘴角以及右侧嘴角)的人脸姿态判别方法，通过此方法，可以迅速获取图像中人脸的姿态数据，抓取正面人脸图像，此场景可以应用于消费电子领域的人脸质量抓拍。

方案原理

本方案原理是，首先采集样本集中的正脸图像的五官坐标数据，利用坐标数据为每张脸生成五官间距离向量，再对所有采集的人脸距离向量求算数平均，得到人脸五官间距的golden向量，之后，以此向量作为参考，对所有采集到的五官数据进行评价，评价算法采用余弦相似度。在高维空间中，与参考向量之间夹角越小，计算得到的余弦相似度越大，则越接近于正脸位姿的拍摄。

人脸姿态评价方法分为四步进行操作：

第一步，获取数据集中正面人脸的五官坐标数据，五官坐标点包括（左眼，右眼，鼻，左侧嘴角以及右侧嘴角的坐标)，获取方式可以使用基于CNN的人脸检测网络。

第二步，生成正五官距离向量，对第一步获取到的五官数据，依次计算出每张图像五官距离向量，距离向量中的元素是任意两个五官之间的距离，根据排列组合理论可知，五官距离向量应当包含10个元素，计算方法如下：

$C^4_5 = 10$