基于感知的广义谱减法语音增强技术解析
1. 引言
随着自动语音处理系统越来越受欢迎,开发语音信号的声学噪声抑制规则变得尤为必要。因为这些系统常常在高环境噪声的环境中使用,其性能会显著下降。为了解决这个问题,许多算法被开发出来,旨在去除背景噪声的同时保留语音的可懂度。
目前,噪声抑制算法主要基于短时谱估计,这些方法需要在引入最小语音失真和有效抑制噪声之间进行权衡。其中,谱减法是最流行的技术,它通过从带噪语音中减去噪声估计来减少背景噪声。然而,这种方法会在增强语音中引入一种令人烦恼的残留噪声,即音乐噪声,它由音调和平随机频率组成。
为了克服这个问题,Ephraim 和 Malah 减法规则利用基于噪声方差先验知识的语音信号平均谱估计来掩盖和减少残留噪声。还有一些方法利用人类听觉系统的特性,特别是听觉掩蔽来提高语音信号的质量和可懂度,而不引入语音失真。本文的目标是将广义谱减法技术应用于基于非线性频率 ERB 分辨率滤波器组的多频段分析,以符合人类听觉系统的行为。
2. 基于感知滤波器组的语音增强
广义谱减法通过基于固定和均匀间隔频率变换的短时谱分析来进行噪声抑制。但在处理过程中,由于谱增益函数产生的不自然波动,会导致处理后的语音质量下降。这些波动是由噪声谱估计的变化引起的,被视为分布在时频平面上的小随机峰值,也就是音乐噪声。音乐噪声的烦人波动和过渡成分取决于语音的时间和频率分析。
基于此,许多基于感知的方法并不试图完全消除音乐噪声。因为人类听觉系统对语音信号中的突然变化和瞬态成分很敏感,其频率选择性是非线性的。因此,人类耳朵的分析可以被概念化为一组重叠的带通滤波器,即听觉滤波器,这些滤波器沿着基底膜分布,提高了人类耳朵的频
超级会员免费看
订阅专栏 解锁全文
4257

被折叠的 条评论
为什么被折叠?



