嘈杂环境下多模型语音识别器性能提升与音乐特征组合研究
1. 嘈杂环境下多模型语音识别器性能提升
在嘈杂环境中,语音识别面临诸多挑战,为了提高语音识别器在这种环境下的性能,研究者们进行了大量的研究。
1.1 现状与问题提出
传统的语音识别方法通常使用单一的声学模型对应干净语音,然而在实际应用中,语音识别器往往工作在各种嘈杂环境中。分布式语音识别(DSR)是一种典型的嘈杂环境,欧洲电信标准协会(ETSI)为此开发了两种DSR前端标准:FE和AFE。FE是基本版本,基于梅尔频率倒谱系数(MFCC)进行特征提取,但在嘈杂环境中效果不佳;AFE则包含了一些噪声自适应算法,在连接数字识别任务中能将错误率降低53%。
此前的研究表明,多模型语音识别器在使用FE前端时优于多风格训练(MTR)方法,但评估未使用更具噪声鲁棒性的AFE前端。此外,以往的多模型语音识别器仅选择一个与输入嘈杂语音最相似的声学模型进行识别,由于信噪比(SNR)估计不准确和噪声信号的可变性,这一过程存在误差。
1.2 改进的多模型语音识别器
- 选择N个最相似的参考HMM进行插值 :首先从测试嘈杂语音中提取噪声信号,测量其与参考HMM的相似度,选择N个最相似的参考HMM进行插值。插值公式为:
[
\sum_{i = 1}^{N} \alpha_i f_i(O) = f_{iter}(O)
]
其中,$O$是观察值,$\alpha_i$是插值权重,本文中使用$\alpha_i = \frac{1}{N}$对所有N个参考HMM的概率密度函数(PDF)进行等权重处理。在训练过程
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



