两种语音退化的定量感知分离研究
在语音处理领域,准确评估和分离语音中的噪声和失真等退化因素至关重要。本文将深入探讨如何通过一些关键参数和方法,实现对语音中可听附加噪声和可听失真的定量感知分离,并通过实验验证相关方法的有效性。
1. 感知等效边界的定义
- 下限边界(LBPE) :为了确定频率分量衰减被感知为失真的下限,引入了感知等效下限(LBPE)的概念。计算LBPE时,使用了Tsoukalas等人提出的用于音频信号增强的可听频谱。可听频谱通过考虑干净语音频谱和掩蔽阈值(MT)之间的最大值来计算。当语音分量低于MT时,它们是不可听的,可以用一个选定的阈值σ(m, k)来替代。LBPE的定义如下:
[
LBPE(m, k) =
\begin{cases}
\Gamma_s(m, k) & \text{if } \Gamma_s(m, k) \geq MT(m, k) \
\sigma(m, k) & \text{otherwise}
\end{cases}
]
其中,σ(m, k)的选择只需满足σ(m, k) < MT(m, k),例如可以选择σ(m, k)等于0 dB。 - 上限边界(UBPE) :结合UBPE和LBPE,可以定义三个区域来表征去噪语音的感知质量:UBPE和LBPE之间的频率分量在感知上与原始语音分量等效;高于UBPE的频率分量包含背景噪声;低于LBPE的频率分量则表现为语音失真。这一特征为识别和检测可听附加噪声和可听失真提供了思路。
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



