基于时空模板和支持向量机的唇读技术
在当今科技发展的浪潮中,语音识别技术为人们与计算机的交互带来了极大的便利。然而,传统的音频语音识别在低信号强度或高环境噪音的情况下,性能会大打折扣。为了解决这一问题,一种基于视频数据的唇读技术应运而生,它不受音频噪音和声学条件变化的影响,甚至无需用户发出声音,具有广阔的应用前景。
1. 唇读技术概述
语音识别技术为用户通过语音控制计算机提供了灵活自然的方式,但音频语音识别器在声音信号强度低或环境噪音大时性能会下降。因此,利用与嘴巴运动相关的视频数据进行唇读成为了研究的方向。唇读系统具有以下优点:
- 不受音频噪音影响;
- 不受声学条件变化的影响;
- 无需用户发声。
视觉特征大致可分为基于形状、基于像素和动态特征。早期的唇读系统使用基于形状的特征,如嘴巴的高度和宽度,但使用人工标记提取唇轮廓不适用于实际的语音控制应用。基于像素的唇读系统则假设嘴巴周围的像素值包含重要的语音信息。
2. 基于时空模板(STT)的唇读技术
本文提出了一种使用时空模板(STT)的唇读技术。STT是通过对视频数据进行时间整合,并为最近的运动赋予更大的权重而创建的。最终的STT是一个二维灰度图像,适合表示短时间的面部运动。
该技术将相机安装在常见耳机上代替麦克风,这样不仅能获得比全脸视频更好的效果,还无需识别感兴趣区域,减少了计算量。整个视觉语音识别技术分为四个阶段:
1. 运动分割
2. 特征提取和降维
3. 分类
3. 运动分割
在每个视频中,嘴巴的运动用二维灰度图像——时空模板(STT)来表示。ST
超级会员免费看
订阅专栏 解锁全文
1338

被折叠的 条评论
为什么被折叠?



