论文翻译《Facial Expression Recognition from World Wild Web》

这篇论文探讨了在万维网上识别真实面部表情的挑战,通过搜索引擎收集并标注了大量图像,研究了深度神经网络在有噪声数据中的表现。实验结果显示,使用深度神经网络在真实面部表情识别中的准确率达到了82.12%。论文还分析了噪声数据对模型训练的影响,并提出噪声建模方法来提高识别准确性。

Facial Expression Recognition from World Wild Web

来自万维网的面部表情识别

摘要

在计算机视觉中,在现实世界中识别人脸表情仍是一个具有挑战的任务。万维网是一个很好的面部图像的来源,其中大部分是在不受控制的条件下拍摄的。事实上,英特网是一个带有表情的面部图像的万维网。这篇论文提供了一项新的研究结果关于在网络中收集、标注和研究真实的面部表情三个搜索引擎使用六种不同语言中的1250个情感相关的关键字进行检索图片,再由两位注解员将检索的图像映射到六个基本的表情中深度神经网络噪声建模被用在三个不同的训练场景中,为了找到当在使用查询词(如happy face、laughing man等)从网上收集到有噪声的图像进行训练时,如何能准确的识别面部表情?我们实验的结果展示了深度神经网络识别真实面部表情准确率为82.12%。

  1. 介绍

(介绍背景,网上的面部表情图片众多,引出问题)

万维网(也就是Internet)已经变成了一个有着巨大而丰富的信息和数据的资源。尤其是随着社交媒体的发展和使用,以及智能手机上的数码相机的普及,人们可以很容易地通过拍照、写一篇简短的描述,并及时将他们更新到社交媒体,从而将数据添加到互联网上。在互联网上,人们通过做标签(喜欢,不喜欢),或是评论朋友或其他人上传的照片来增加更多的数据。据估计,每天有超过4.3亿张照片被上传到Facebook和Instagram的服务器上[10,4]。在网上上传的这些图片中,人脸图像的出现率最高(比如,如今非常流行的自拍)。这些人脸照片通常是在现实中的自然条件下拍摄的,参数各不相同,例如环境灯光、使用者头部姿势、相机视角、图片的分辨率和背景、被拍摄者的性别、种族、和面部表情等。此外,用户给定的标签使用了宽泛的词汇,来描述图片中的内容如情感、面部特征、和表情。无论是在图像质量/条件,还是用户给出的标签,这些照片是真实环境中的图像。一个有趣的问题是,在网上如何将普通用户给定的面部图像的标签与心理学家定义的六种基本情感相一致。

(采样及现有数据集存在的问题)

另一方面,计算机视觉识别面部表情的机器学习技术正在融入新一代人机界面的设计中。为了训练机器学习系统,许多研究者已经创建出了使用人类演员/受试者来描述基本情感的数据集。然而,大多数捕获的数据集主要包含在受控环境中获取的摆拍表情。这主要是由于,在实验室环境中,收集摆拍(unpose)的面部表情数据是困难和耗时的。但是,在实际应用中,系统需要捕获和识别自发的表情,这些表情涉及不同的面部肌肉,较少的夸张/强度,比摆姿势的表情有不同的动态。研究者们已经创建了“自发表情数据集”,通过捕获人们在看短视频或填写问卷的时候的表情[7, 17, 18]。但是,这些数据集仍然是在受控的实验室环境中获取的(例如,具有相同的照明、分辨率等),或者对象、种族的数量有限,并且摆出的姿势不能很好地代表现实世界中所面临的环境和条件。现实环境中现有的数据集,如SFEW[3]或FER2013 [6],它们要么非常小,要么分辨率很低,没有用于预处理的面部标志点。

 

(继数据集难题之后,又提出两个难题)

此外,目前最好的机器学习算法,如深度神经网络需要大量数据训练来对核心算法进行评估。鉴于上述动机,本文提出了我们最近的研究结果,旨在解决以下问题:

  1. 在面部图像中,如何统一普通用户给定的表情标签和由专家定义的六种基本的表情标签?
  2. 当对使用查询词(如happy face, laughing man等)从网上收集的面部图像进行训练时,最先进的算法能对图像进行多准确分类?

(解决上述问题的办法:创建数据集—设置训练模式—训练原理)

为了解决这些问题,我们通过查询不同的搜索引擎(谷歌、Bing和Yahoo)创建了一个真实面部表情数据集。然后,我们使用两个人类面部注释器对查询图像的子集进行标注,并展示了搜索引擎对面部表情识

### 开放集面部表情识别的研究方法 开放集面部表情识别旨在处理训练集中未见过的表情类别。为了应对这一挑战,研究者提出了多种策略来增强模型的泛化能力[^2]。 一种常见的做法是在特征学习阶段引入局部保持投影(Locality-Preserving Projection),这有助于保留数据的空间结构特性,使得不同类别的样本在低维空间中仍然能够被有效区分。通过这种方式,即使遇到未曾见过的新表达方式,系统也能够在一定程度上做出合理的判断。 此外,在获取标注数据方面采用了可靠的众包平台来进行大规模图像采集与标签分配工作,从而获得更加多样化的真实场景下的表情图片库用于训练更鲁棒的分类器。 ### 实现技术 对于开放集问题,除了上述提到的技术手段外,还可以采用深度神经网络架构如卷积神经网络(Convolutional Neural Network, CNN)作为基础框架进行端到端的学习过程。CNN可以自动提取人脸区域内的高级语义特征,并结合Softmax层或其他损失函数设计实现多类别概率估计功能[^1]。 针对未知类别的检测,则可以通过设定阈值机制或者利用异常检测算法(Anomaly Detection Algorithm),当测试样本属于已知类别之外时触发警报并拒绝给出具体的情感预测结果。 ```python import torch.nn as nn class ExpressionRecognizer(nn.Module): def __init__(self): super(ExpressionRecognizer, self).__init__() # 定义卷积层和其他必要的组件... def forward(self, x): output = ... return output ``` ### 应用场景 该领域有着广泛的应用前景,特别是在人机交互(Human-Computer Interaction, HCI)、心理健康监测(Mental Health Monitoring)以及虚拟现实(Virtual Reality, VR)/增强现实(Augmented Reality, AR)等领域展现出巨大潜力。例如: - **情感计算**:分析用户情绪状态以提供个性化服务; - **公共安全监控**:识别人群中的异常行为模式预警潜在威胁事件的发生; - **医疗辅助诊断**:帮助医生评估患者的心理状况或疼痛程度等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值