【论文阅读-表情捕捉】ExpNet: Landmark-Free, Deep, 3D Facial Expressions

本文介绍了ExpNet,一种无需面部标志的深度神经网络,用于直接从图像中估计3D面部表情。ExpNet的提出使得在不依赖地标检测的情况下进行3D表情系数回归成为可能,相比依赖地标的方法,它在缩放变化中更具鲁棒性。实验结果显示,ExpNet在表情估计和情绪分类任务上表现优秀,特别是在低分辨率图像上。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ExpNet: Landmark-Free, Deep, 3D Facial Expressions

introduction

同团队的两篇前作……

我们的论文使用类似的技术来模拟 3D 面部表情。具体来说,我们展示了如何使用我们提出的深度神经网络:ExpNet,直接从图像强度建模面部表情。据我们所知,这是第一次展示 CNN 直接估计 3D 表达系数,而不需要或涉及面部标志检测。

然而,我们超越了以前的工作,还提供了我们面部表情估计的定量比较。为此,我们建议测量不同的表情回归方法在扩展 Cohn-Kanade (CK+) [27] 和 EmotiW17 基准 [10] 上捕捉面部情绪的能力。这两个基准都包含标记为情绪类别的面部图像,使我们能够专注于我们的方法和其他方法如何捕捉情绪。我们表明,我们的深度方法不仅提供了更有意义的表达表示,而且与为此目的依赖地标的方法相比,它在缩放变化方面更加稳健。最后,为了促进我们结果的再现,我们的代码和深度模型是公开的。

Related Work

A. Expression Estimation

我们首先强调 情感分类表情回归 任务之间的区别。前者试图将图像或视频分类为离散的面部情感类集 [10]、[27] 或动作单元 [14]、[47]。这个问题通常通过考虑面部标志的位置来解决。近年来,越来越多的最先进的方法转而采用深度网络[25]、[26]、[48],将它们直接应用于图像强度,而不是将地标位置估计为代理步骤。

表情回归方法试图提取面部变形的参数。这些参数通常以 active appearance models (AAM) [27] 和 Blendshape 模型系数 [33]、[49]、[50] 的形式表示。在这项工作中,我们专注于估计 3D 表达系数,使用 3DDFA [49] 描述的相同表示。然而,与 3DDFA 不同,我们将表情系数回归与面部标志检测完全分离。我们的测试表明,通过这样做,我们获得了一种对改变图像比例更稳健的方法。

B. Facial Landmark Detection

已经有大量工作致力于准确检测面部标志,而不仅仅是因为它们在表情估计中的作用。人脸标志检测是一个普遍的问题,在许多人脸相关系统中都有应用。地标检测器通常用于通过在 2D 和 3D 中应用刚性 [12]、[13]、[40] 和非刚性变换 [16]、[22]、[49] 变换来对齐人脸图像 [17]、[ 28]、[29]、[30]、[31]。

一般来说,地标检测器可以分为两大类:基于回归的[6]、[23]、[41]和基于模型的[2]、[46]、[49]技术。基于回归的方法直接从面部外观估计地标位置,而基于模型的方法明确地对地标的形状和外观进行建模。无论采用哪种方法,只要以极端的平面外旋转(远离正面)、低比例或当人脸边界框与用于开发地标检测器的人脸边界框显着不同时,地标估计都可能失败。

为了解决变化 3D 姿势的问题,与我们自己相关的最近的 3DDFA [49] 使用 CNN 学习 3DMM 表示的参数。然而,与我们不同的是,它们规定了一种迭代的、综合分析的方法。与我们相关的还有最近的 CE-CLM [46]。 CE-CLM 引入了卷积专家网络来捕获非常复杂的地标外观变化,从而实现最先进的地标检测精度。

面部标志的确切位置曾经被认为是特定于主题的信息,可用于面部识别[11]。然而,今天,这些尝试几乎都被放弃了。转向其他人脸表示的原因可能是由于现代人脸识别系统 [24] 通常假设的真实图像条件,其中即使是最先进的地标检测精度也不足以仅根据他们的位置来区分个体检测到面部标志。然而,在其他应用中,面部标志占主导地位。这项工作遵循最近的尝试,最著名的是 Chang 等人[7]通过为面部理解任务提出具有里程碑意义的免费替代方案。这项工作旨在允许对无视界标检测技术的图像进行准确的表达估计,其精神类似于放弃界标作为表示身份的手段。据我们所知,以前从未尝试过这种直接、无里程碑、深度的表达建模方法。

建模

A. Representing 3D Faces and Expressions

我们建议使用直接应用于图像强度的 CNN 来估计面部表情系数。训练这种深度网络时的一个主要问题是标记训练数据的可用性。出于我们的目的,训练标签是表达系数的 29D 实值向量。这些标签没有自然的解释,人类操作员可以很容易地使用这些标签来手动收集和标记训练数据。接下来,我们将解释如何表示 3D 形状及其表达式,以及如何收集大量数据以有效训练深度网络以达到我们的目的。
在这里插入图片描述
n n n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值