视觉语音识别与加权数据特征提取技术解析
视觉语音识别技术
视觉语音识别(VSR)具有不受音频噪声影响、不受声学条件变化影响以及无需用户发声等优势。视觉特征可分为基于形状、基于像素和基于运动的特征。
- 视觉特征分类
- 基于形状的特征 :依赖嘴巴的形状,如首个VSR系统使用嘴巴的高度和宽度等形状特征。不过,使用人工标记提取嘴唇轮廓不适用于实际语音控制应用。
- 基于像素的特征 :假设嘴巴周围的像素值包含显著的语音信息,从静态帧中提取,属于静态特征。
- 基于运动的特征 :直接利用语音的动态特性,虽研究较少,但动态特征在区分性上优于静态特征。
本文提出一种基于时空模板(STT)提取运动特征的新型VSR技术,该技术无需在说话者脸上使用人工标记,且将摄像头安装在常见耳机上替代麦克风,这样不仅能获得更好的识别效果,还无需识别感兴趣区域,减少了计算量。
- 理论基础
- 视觉语音模型 :基于视位(viseme)对视觉语音进行建模。视位是与音素相关的视觉运动的原子单位,可拼接成单词和句子。不同语音发音可能对应相同的可见面部运动,因此音素与视位存在多对一的映射关系。本文采用MPEG - 4标准的视位模型,将英语音素映射为14个视位,如下表所示:
<
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



