语音增强属于数字信号处理中的语音信号处理领域。
1、简介
1.1 噪声类型
语音增强的目的是提高语音信号的质量或可懂度,减少失真。这里主要介绍单麦克风信号语音增强,常见的失真有:
(a) 加性声学噪声:就是麦克风在录制语音时同时录制进去的背景环境声音
(b) 声学混响:多径反射引起的叠加效应
(c) 卷积信道效应:导致不均匀或带宽限制响应,为了去除信道脉冲响应,做信道均衡时对通信信道没有有效建模
(d) 非线性失真:比如信号输入时不适当的增益
(e) 加性宽带电子噪声
(f) 电器干扰
(g) 编码失真:比如压缩编码
(h) 录音仪器引起的失真:麦克风频率响应不足
1.2 语音增强的目的
1)提高语音可懂度,让人类更容易听懂
2)提高语音质量,让人耳更容易接受
3)修饰语音,提高自动语音或说话人识别系统性能
4)修饰语音,让语音存储或传输编码更有效
大多数文献主要针对后面3点,语音质量和语音可懂度是有区别的,语音质量提高了,语音可懂度可能会降低。而提高语音识别系统的性能又有所不同,因为这些系统忽略了许多人类听觉感知的元素&#x