图像识别论文笔记

《基于深度学习与传统机器学习的人脸表情识别综述》


现有人脸识别技术局限于传统的机器学习算法,在光照强弱、有遮挡物、姿态变换等情况下,传统机器学习算法鲁棒性差,难以应用到实际生活中;

20世纪70年代末期,Suwa等将连续序列的人脸图像标记成20个特征点,通过对这些特征点的比较实现对表情的识别,Paul Ekman提出六种基本的表情,分别是高兴、悲伤、惊奇、生气、厌恶、恐惧,随后他提出将面部的肌肉的运动与表情进行映射,其中面部的运动单元有44个,如此形成面部表情编码系统;

随着计算机技术的发展、大数据时代以及GPU等电脑硬件的发展,人脸识别的相关算法也得到了发展。2012年在国际计算机视觉比赛ILSVRC上,Hinton和他的学生Alex基于CNN(卷积神经网络)搭建的AlexNet模型获得了冠军,这种模型将图像识别率从74.3%提升到84.7%,使得图像识别取得了巨大突破;

现在主流的人脸表情数据库有:JAFFE数据库、BHU表情库、CK+数据库、MMI数据库、BU-3DFE数据库、GEMEP数据库、FER2013数据库;

图像处理之前需要考虑图像受环境影响的因素,常见的来源有:椒盐噪声(脉冲噪声)、高斯噪声、伽马噪声、指数分布噪声、均匀分布噪声等,同时还受背景、光线强弱、遮挡物等的影响,而且还要考虑数据库中照片的尺寸和类型(是否为彩色)是否和需要识别的图像相同;

传统机器学习算法:

去噪:均值滤波、中值滤波、自适应中值滤波、维纳滤波等

减少运算量:尺度和灰度归一化

图像增强:直方图均衡化

特征提取:

特征提取需要避免出现维数过高的情况,所以需要对特征进行降维和特征分解处理

 Gabor特征提取:能够很好的描述纹理特征,对多尺度、多方向纹理特征变换有很好的鲁棒性,并且对光线不敏感。具体看论文《image representation using 2D Gabor wavelets》、《BHANU B.Evolutionary feature synthesis for facial expression recognition》、《Facial expression recognition method based on Gabor multi-orientation-features fusion and block histogram》、《Capuring subtle facial motions in 3D face tracking》

局部二值算法(LBP):计算图像中包含的每个像素与其邻域的点在亮度上的序关系,然后对二值序关系进行编码形成局部二值模式,最后采用多区域直方图作为图像的特征描述。LBP算法会造成维数灾难;基于LBP的改进算法——完全局部二值算法(CLBP),这种算法虽然识别性能更好,但是还是会造成维数灾难;基于Fisher准则改进的LBP算法——FCL-LBP,这种算法解决了维数灾难的问题;Feng通过建立局部LBP直方图提升了人脸表情的识别率;江南大学周宇旋改进的LBP算法能对单一表情的特有特征做出选择,从而更好识别人脸表情;基于LBP算法改进的LDP(局部定向模式)算法能够对光照有很好的鲁棒性;局部相位量化(LPQ)主要是基于短时傅立叶,能够增强特征提取的稳定性。

ASM和AAM:ASM(主动形状模型)是基于统计模型,一般用来提取表情轮廓上的特征点;AAM(主动外观模型)将局部纹理特征融入其中客服了ASM采用全局特征的缺点;Cristinacce将PRFR(特征响应增强算子)与AAM融合用来检测脸部各器官的局部边缘特征点;Saatci将AAM与支持向量机(SVM)进行级联,提高了识别率。

Haar-like特征提取:通常先采用haar-like提取原始特征,然后使用Adaboost算法进行训练,提取不同特征,构造特征子空间。

光流法:这种算法主要是用于提取运动物体的特征

特征点跟踪法:利用粒子滤波器跟踪特征点,构建三维表情模型;刘玉等融合KLT和SIFT特征点的跟踪方法,并且对SIFT进行改进,解决了特征点的聚集现象,对KLT匹配算法进行分层迭代设计,能够快速跟踪匹配

特征分类算法:

特征提取完毕之后,有可能出现特征维数很高的情况,这时候就需要对特征进行降维,常用的降维方法有PCA降维法、LDA降维法

K-NN算法(最近邻算法):没看懂作者写的意思

SVM算法:它是一个二分类器

Adaboost算法:它是一个二分类器

贝叶斯分类:它是一种基于统计学上的概率网络,通过概率推理讲网络图形化

深度学习

深度学习避免了繁琐的图像预处理和特征提取,较传统方法来说更加好,对于光照、姿态、遮挡物等的鲁棒性更好

CNN(卷积神经网络):

利用损失函数判断预测值与真实值之间的吻合程度,也就是对模型的好坏进行判断。常用的损失函数有:softmax分类器的互熵损失、hinge损失、L2范数损失、L1范数损失;

CNN能够解决非线性问题关键在于激活函数,通过函数将激活的神经元的特征保留下来,常用的激活函数有:tanh、sigmod、softsign、ReLU、LReLU等;

为了防止过拟合现象,CNN还需要进行正则化操作,常用的正则化操作由:数据扩增、dropout、L2正则、dropconnect等;

CNN还利用池化操作降低特征的维数;

DBN(深度信任网络):

它由一层反向前馈传播网络和深度RBM组成

发展方向:基本模型已经不能满足性能需求,未来发展的方向主要体现在提高网络深度混合模型与传统机器学习结合迁移学习无监督学习

常用深度学习框架

Theano:鼻祖,但是太底层,不支持分布式

Tensorflow:灵活、通用、可移动,适合做产品开发

Keras:它的后台是基于Teano/tensorflow的

Caffe:在图像分类方面代表一流水准,但是不能适用于其他深度学习应用

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值