Self-Cure Net:如何更好地抑制大规模人脸情绪识别的不确定性?

Self-Cure Net:如何更好地抑制大规模人脸情绪识别的不确定性?

Suppressing Uncertainties for Large-Scale Facial Expression Recognition_arXiv:2002.10392v1 [cs.CV] 24 Feb 2020(本人自译,转载译本需经许可)

Abstract:

由于不明确的面部表情,低质量的面部图像以及注释者的主观性,给定性的大规模面部表情数据集添加注释非常困难。 这些不确定性导致深度学习时代大规模面部表情识别(FER)的关键挑战。 为了解决这个问题,本文提出了一种简单而有效的Self-Cure Network(SCN),该网络可以有效地抑制不确定性并防止深度网络过度拟合不确定的面部图像。 具体而言,SCN从两个不同方面抑制了不确定性:1)在小批量生产中采用自我注意机制,以排名正则化对每个训练样本进行加权,2)修改最低排名部分的样本的重新标记机制。 在合成FER数据集和我们收集的WebEmotion数据集上进行的实验验证了我们方法的有效性。 公开基准测试结果表明,我们的SCN优于当前的最新方法,在RAF-DB上为88.14%,在AffectNet上为60.23%,在FERPlus上为89.35%。 该代码将在https://github.com/kaiwang960112/Self-Cure-Network上提供。

1.Introduction:

面部表情是人类传达其情绪状态和意图的最自然,最有力和普遍的信号之一。 自动识别面部表情对于帮助计算机理解人类行为并与之互动也很重要。 在过去的几十年中,研究人员通过算法和大规模数据集在面部表情识别(FER)方面取得了重大进展,可以在实验室或野外收集数据集,例如CK +,MMI,OuluCASIA,SFEW / AFEW ,FERPlus,AffectNet,EmotioNet,RAF-DB等。

在这里插入图片描述

然而,对于从互联网收集的大规模FER数据集,由于注释者的主观性以及模糊的野外面部图像所带来的不确定性,很难进行高质量的注释。 如图1所示,不确定性从高质量和明显的面部表情增加到低质量和微表情。 这些不确定性通常会导致标签不一致和标签错误,从而延迟了大规模面部表情识别FER的进展,特别是对于基于数据驱动的深度学习FER之一。通常,不确定的FER训练可能会导致以下问题。 首先,这可能会导致对不确定样品的过度拟合,从而可能会贴错标签。 其次,有害于模型对于有用的面部表情特征的学习。 第三,错误标签的比例很高,甚至会使模型在优化的早期就不合逻辑。

为了解决这些问题,我们提出了一种简单而有效的方法,称为自愈网络(SCN),以抑制大规模面部表情识别的不确定性。SCN包含三个关键模块:自我注意力重要性加权,等级正则化和噪声重新标记。

给定一批图像,首先使用主干CNN提取面部特征。然后自我注意力重要性加权模块为每个图像学习一个权重,以捕获样本重要性以进行加权损失。 可以为不确定的面部图像分配低的重要性权重。 此外,排名正则化模块将这些权重按降序排名,将它们分为两组(高重要性权重和低重要性权重),并通过在两组平均权重之间强制执行边距来对两组进行正则化.。该正则化通过损失函数(称为秩正则化损失(RR-Loss)实现。 排名正则化模块可确保第一个模块学习有意义的权重以突出显示某些样本(例如,可靠的注释)并抑制不确定的样本(例如,含糊的注释)。最后一个模块是一个仔细的重新标记模块,该模块通过将最大预测概率与给定标记的概率进行比较,尝试从最下面的分组重新标记这些样本。 如果最大预测概率高于具有边际阈值的给定标签之一,则将样本分配给伪标签。

此外,由于不确定性的主要证据是不正确/嘈杂的注释问题,因此我们从互联网上收集了一个称为WebEmotion的极端嘈杂的FER数据集,以研究具有极端不确定性的SCN的影响。

总的来说,我们的贡献可以总结如下:

  • 我们创新地提出了面部表情识别中的不确定性问题,并提出了一个自愈网络以减少不确定性的影响。
  • 我们精心设计了排名正则化,以监督SCN对于有意义的重要性权重的学习,这也为重新标记模块提供了参考。
  • 我们对合成FER数据和从互联网上收集的真实不确定情绪数据集(WebEmotion)进行了广泛的验证。 我们的SCN在RAF-DB上的性能也达到88.14%,在AffectNet上达到60.23%,在FERPlus上达到89.35%,创下了新纪录。

2.Related Work:

2.1Facial Expression Recognition:

通常,FER系统主要包括三个阶段,即面部检测,特征提取和表情识别。 在人脸检测阶段,使用了多个人脸检测器(例如MTCNN和Dlib)来定位复杂场景中的人脸。 所检测的面部可以可替代地进一步对准。 对于特征提取,设计了各种方法来捕获由面部表情引起的面部几何形状和外观特征。 根据功能类型,可以将它们分为工程功能和基于学习的功能。 对于工程特征,它们可以进一步分为基于纹理的局部特征,基于几何的全局特征和混合特征。 基于纹理的特征主要包括SIFT,HOG,LBP直方图,Gabor小波系数等。

基于几何的全局特征主要基于鼻子,眼睛和嘴巴周围的界标点。 组合两个或多个工程特征是指混合特征提取,可以进一步丰富表示。 对于习得的特征,Fasel发现浅层的CNN可以很好地面对姿势和比例。 Tang和Kahou等人利用深层CNN进行特征提取,并分别赢得了FER 2013和Emotiw2013挑战。 Liu等人提出了一种基于面部动作单元的CNN架构,用于表情识别。 最近,Li和Wang等人设计了基于区域的注意网络,用于姿势和遮挡感知FER,其中区域从地标点或固定位置裁剪

2.2Learning with Uncertainties:

FER任务中的不确定性主要来自模棱两可的面部表情,低质量的面部图像,注释不一致以及注释不正确(即嘈杂的标签)。 特别是,在计算机视觉社区中广泛研究了带有噪音标签的学习,而很少探讨其他两个方面。 为了处理嘈杂的标签,一个直观的想法是利用少量干净的数据,这些数据可用于在训练过程中评估标签的质量或估计噪声分布或训练特征提取器。

Li等提出了一个统一的“蒸馏”框架,该框架使用来自小型干净数据集的“边”信息和知识图中的标签关系,以对冲从嘈杂标签中学习的“风险”。Veit等人使用一个多任务网络,该网络可以共同学习清除嘈杂的注释和对图像进行分类。 Azadi等人通过带有噪点标签的深层CNN的辅助图像正则化选择可靠的图像。 其他方法不需要小的干净数据集,但它们可能会在嘈杂的样本上承担额外的约束或分布,例如随机翻转标签的特定损失,通过MentorNet规范损坏标签上的深层网络。 其他方法通过将潜在的正确标签连接到嘈杂的标签上,从而在softmax层上对噪声建模。 对于FER任务,Zeng等人首先考虑不同FER数据集之间不一致的注释问题,并提出利用这些不确定性来改善FER。 相反,我们的工作重点是抑制这些不确定性,以学习更好的面部表情特征。

3.Self-Cure Netw

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Super__Tiger

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值