双粒子数RBPF语音增强技术解析
1. 引言
在各种场景下,处理被加性背景噪声干扰的语音信号是一个备受关注的问题。语音增强的目标是在给定含噪信号的情况下,估计出干净的语音。增强技术主要分为单通道和多通道两类。单通道技术是最常见的实时方法,因为在大多数应用中,如互联网通信、语音识别系统以及使用降噪耳机的语音场景,往往没有第二个通道可用。
单通道系统的实现相对简单且成本较低,但由于无法获取噪声统计信息,其算法复杂,计算成本和复杂度较高。单通道语音增强算法大致可分为三类:谱减法、子空间分析法和滤波算法。谱减法实现简单,但会产生“振铃”等可听失真;子空间分析法在自相关域操作,虽能分离语音和噪声成分,但估计正交分量计算量大,且正交性假设缺乏充分依据。
滤波算法可在时域、频域或联合域实现,主要目的是去除噪声分量(如维纳滤波)或估计噪声和语音分量(如卡尔曼滤波、粒子滤波)。原始卡尔曼滤波在假设噪声为高斯分布时,能提供干净语音的最小均方误差(MMSE)估计。已有许多关于增强白噪声污染语音的研究,但在现实世界中,假设为有色噪声对语音增强更有效。此外,滤波方法还配备了各种期望最大化(EM)参数估计算法,如迭代卡尔曼滤波、卡尔曼 - EM - 迭代(KEMI)和卡尔曼 - 梯度下降 - 序列(KGDS)算法等。
在非高斯噪声或非线性模型假设的情况下,可使用粒子滤波器进行语音增强。与卡尔曼滤波器家族相比,粒子滤波器对噪声功率密度函数(PDF)的假设要求较少。滤波类型的方法通常需要退化语音信号的自回归(AR)模型参数,AR模型通过将当前样本预测为前几个样本的线性组合来利用时间序列中的局部相关性。
本文提出了双粒子数RBPF,显著降低了计算成本和复杂度。将该方法的结果
超级会员免费看
订阅专栏 解锁全文
3642

被折叠的 条评论
为什么被折叠?



