52、嘈杂环境下多模型语音识别器性能提升与音乐特征组合研究

嘈杂环境下多模型语音识别器性能提升与音乐特征组合研究

1. 嘈杂环境下多模型语音识别器性能提升

在嘈杂环境中,语音识别面临诸多挑战,为了提高语音识别器在这种环境下的性能,研究者们进行了大量的研究。

1.1 现状与问题提出

传统的语音识别方法通常使用单一的声学模型对应干净语音,然而在实际应用中,语音识别器往往工作在各种嘈杂环境中。分布式语音识别(DSR)是一种典型的嘈杂环境,欧洲电信标准协会(ETSI)为此开发了两种DSR前端标准:FE和AFE。FE是基本版本,基于梅尔频率倒谱系数(MFCC)进行特征提取,但在嘈杂环境中效果不佳;AFE则包含了一些噪声自适应算法,在连接数字识别任务中能将错误率降低53%。

此前的研究表明,多模型语音识别器在使用FE前端时优于多风格训练(MTR)方法,但评估未使用更具噪声鲁棒性的AFE前端。此外,以往的多模型语音识别器仅选择一个与输入嘈杂语音最相似的声学模型进行识别,由于信噪比(SNR)估计不准确和噪声信号的可变性,这一过程存在误差。

1.2 改进的多模型语音识别器
  • 选择N个最相似的参考HMM进行插值 :首先从测试嘈杂语音中提取噪声信号,测量其与参考HMM的相似度,选择N个最相似的参考HMM进行插值。插值公式为:
    [
    \sum_{i = 1}^{N} \alpha_i f_i(O) = f_{iter}(O)
    ]
    其中,$O$是观察值,$\alpha_i$是插值权重,本文中使用$\alpha_i = \frac{1}{N}$对所有N个参考HMM的概率密度函数(PDF)进行等权重处理。在训练过程
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值