语音识别

产业:

Nuance:全球最大的语音识别技术提供商 
IBM:具有强大数学底蕴的老牌语音识别研究机构 
Microsoft:Vista操作系统中首次加入语音识别功能 
Google:凭借互联网方面的优势GOOG-411,音乐搜索

学术:

Cambridge:HTK工具对学术界研究推动巨大 
CMU:SPHINX-李开复 
 SRI,MIT,RWTH,ATR

语音识别实用化方面的两种论调 


悲观:缺少杀手级应用,与人类的语音识别水平还有很大差距 
乐观:Nuance能如此成功,计算机存储和运算能力的不断提高

语音识别各种具体应用

命令词系统 
识别语法网络相对受限,对用户要求较严格 
 菜单导航,语音拨号,车载导航,数字字母识别等等 
• 智能交互系统 
 对用户要求较为宽松,需要识别和其他领域技术的结合 
 呼叫路由,POI语音模糊查询,关键词检出 
• 大词汇量连续语音识别系统 
 海量词条,覆盖面广,保证正确率的同时实时性较差 
• 结合互联网的语音搜索 
 实现语音到文本,语音到语音的搜索

133736_MtMl_2352897.png

 

语音识别基本原理

贝叶斯统计建模框架(MAP/最大后验概率决策准则)

134203_ruVD_2352897.png

134237_3ZIR_2352897.png

 

声学特征提取

134341_oPGy_2352897.png

简单来说, x是一个帧序列,而每帧就是一个多维向量

声学模型

声学单元应该具有的特性 
• 一致性:不同语音实例中相同的语音单元在声学上一致 
• 可训练性:建模单元需要足够的训练数据来进行参数估计 
• 可共享性:不同的建模单元之间共享某些具有共性的训练数据 
• 声学单元如何挑选? 
• 句子(sentence): 科大讯飞实验室 
• 单词(word): 科大-讯飞-实验室 
• 单字(syllable): 科-大-讯-飞-实-验-室 
• 音素(phone): k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i 
• 考虑协同发音的三元音素(tri-phone):ei-sh+i和an-sh+I 
• 精细建模和训练数据量之间的矛盾如何解决?参数绑定 
• 声学单元对应的模型形式应该是什么? 
• 隐Markov模型(HMM),神经网络(NN) 

Markov过程和Markov链 
• 描述了一个最小记忆系统的随机行为

/**安德雷·安德耶维齐·马尔可夫**/

135054_U3La_2352897.png

• HMM的几要素

135210_os5a_2352897.png

 

HMM的两假设

1、一阶Markov假设135328_wJRh_2352897.png

2、输出无关假设135340_hd68_2352897.png

HMM的三个问题 
• 评估问题 
• 给定HMM模型参数以及一串观测序列,如何求得观测序列的似然度 
• 解码问题 
• 给定HMM模型参数以及一串观测序列,如何搜索出最优的状态序列 
• 训练问题 
• 给定观测序列,如何得到模型参数

 

135534_z4WA_2352897.png

 

评估问题

135723_aN4G_2352897.png

运算量太大,需要寻找快速算法—前向算法(Forward Algorithm)

135904_WeB4_2352897.png

解码问题—Viterbi算法 

135949_cAbL_2352897.png

 

 

训练问题—最大似然估计 
• EM算法( Expectation-Maximization Algorithm) 
• Baum-Welch算法/前后向算法(Forward-Backward ) 

 

语言模型

140109_ZZ9m_2352897.png

解码搜索 
• Viterbi算法 
• 时间同步和时间异步 
• 搜索空间裁减 
• N-best和Word-Graph 
 
• 对于命令词/孤立词识别网络,情况要简化很多 
• 对于每条命令词先扩展成HMM序列,然后计算得分 
• 选择得分最大的作为识别输出结果

语音识别的难点及其他相关技术介绍 
 
• 说话人的差异 
• 不同说话人:发音器官,口音,说话风格 
• 同一说话人:不同时间,不同状态 
• 噪声影响 
• 背景噪声 
• 传输信道,麦克风频响 
 
• 鲁棒性技术 
• 区分性训练 
• 特征补偿和模型补偿 

 

 

 

 

 

转载于:https://my.oschina.net/u/2352897/blog/687611

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值