自动语音识别中的语音增强与关键词检测技术
在自动语音识别(ASR)领域,语音增强和关键词检测是两个重要的研究方向。语音增强旨在提高语音信号的质量,减少噪声的干扰,从而提升语音识别的准确性;而关键词检测则是在语音中准确识别出特定的关键词,广泛应用于语音交互、信息检索等场景。
语音增强:高斯混合模型的应用
语音增强方法在短时傅里叶变换(STFT)域中应用广泛。大多数传统方法,如功率减法、维纳滤波器和Ephraim - Malah滤波器,都采用了高斯模型。在该模型下,语音和噪声的分布被假设为零均值、圆形且复高斯分布。然而,这种高斯假设受到了一些质疑,超高斯先验分布,如拉普拉斯分布、伽马分布、广义伽马分布或瑞利混合模型,被证明能更好地拟合语音傅里叶系数的经验分布。基于这些模型推导的最大后验概率(MAP)和最小均方误差(MMSE)估计器在信噪比(SNR)方面表现出更好的语音增强特性。
本文研究了高斯混合模型在ASR语音增强中的应用。假设语音和噪声的先验分布均为复高斯混合模型,这可以看作是瑞利混合语音先验模型的推广。
噪声的高斯混合模型
在传统高斯模型下,复值噪声傅里叶系数 $D = D_R + jD_I$ 的概率密度函数(PDF)可通过其实部和虚部的PDF乘积得到。这些PDF是零均值的高斯分布,方差为 $\sigma_D^2$,其PDF表达式为:
[p(D) = p(D_R)p(D_I) = \frac{1}{\pi\lambda_D} \exp\left(-\frac{|D|^2}{\lambda_D}\right)]
其中,$\lambda_D = 2\sigma_D^2$ 对应于 $D$ 的方差。
本
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



