96、视觉语音识别与加权数据特征提取技术解析

视觉语音识别与加权数据特征提取技术解析

视觉语音识别技术

视觉语音识别(VSR)具有不受音频噪声影响、不受声学条件变化影响以及无需用户发声等优势。视觉特征可分为基于形状、基于像素和基于运动的特征。

  • 视觉特征分类
    • 基于形状的特征 :依赖嘴巴的形状,如首个VSR系统使用嘴巴的高度和宽度等形状特征。不过,使用人工标记提取嘴唇轮廓不适用于实际语音控制应用。
    • 基于像素的特征 :假设嘴巴周围的像素值包含显著的语音信息,从静态帧中提取,属于静态特征。
    • 基于运动的特征 :直接利用语音的动态特性,虽研究较少,但动态特征在区分性上优于静态特征。

本文提出一种基于时空模板(STT)提取运动特征的新型VSR技术,该技术无需在说话者脸上使用人工标记,且将摄像头安装在常见耳机上替代麦克风,这样不仅能获得更好的识别效果,还无需识别感兴趣区域,减少了计算量。

  • 理论基础
    • 视觉语音模型 :基于视位(viseme)对视觉语音进行建模。视位是与音素相关的视觉运动的原子单位,可拼接成单词和句子。不同语音发音可能对应相同的可见面部运动,因此音素与视位存在多对一的映射关系。本文采用MPEG - 4标准的视位模型,将英语音素映射为14个视位,如下表所示:
  • <
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值