基于卷积神经网络和长短时记忆的自动唇读机器人系统
1. 引言
语音是人类最广泛使用的交流方式,是一个涉及音频和视频信息的多感官过程。研究表明,视觉信息对语音识别有着重要影响,例如当音频为 /ba/ 而唇部动作显示为 /ga/ 时,大多数人会理解为 /da/。虽然音频信号通常比视觉信号更有用,但多数人会下意识地运用唇读来理解语音,听力障碍者也能通过处理唇部和面部的视觉信息来理解他人的话语。
随着人工智能技术的飞速发展和计算机性能的不断提升,人机交互成为热门话题,自动唇读作为一种重要的人机交互方式,在计算机视觉、信息安全、驾驶辅助系统和聋人教育等领域有着广泛的应用。
自动唇读系统一般由面部识别、唇部定位、特征提取和分类四个主要部分组成。在特征提取和分类方面,可分为传统系统和基于深度神经网络(DNN)的系统。传统系统的特征提取方法又可分为基于像素的方法和基于模型的方法:
- 基于像素的方法 :使用目标区域的像素值,如多尺度空间分析(MSA)或局部二值模式(LBP)作为视觉信息,然后通过主成分分析(PCA)或离散余弦变换(DCT)等压缩算法降维。但这种方法对亮度、维度和旋转的变化较为敏感。
- 基于模型的方法 :如主动形状模型(ASM)或主动外观模型(AAM),能够获得一组低维度、高稳定性的高级几何特征。提取的特征会被输入到支持向量机(SVM)或隐马尔可夫模型(HMM)等分类器中。
近年来,深度学习在计算机视觉的许多领域,包括自动唇读,带来了深远的益处。不同代的深度模型在特征提取和分类方式上有所不同:
- 第一代深度模型 :使
超级会员免费看
订阅专栏 解锁全文
919

被折叠的 条评论
为什么被折叠?



