基于相位的语音识别中预加重和窗形状的重要性
1 引言
在信号处理研究领域,普遍认为相位谱在语音处理中并不起显著作用。在该领域的不同方面,往往只关注幅度谱。相位谱要么在未经过任何处理的情况下直接传输到输出端(如在语音增强中),要么在进行傅里叶变换后立即被丢弃(如在语音识别的特征提取中)。
对语音相位谱存在偏见的原因主要有以下三点:
- 19 世纪,欧姆和亥姆霍兹指出,人类耳朵进行傅里叶分析,且在感知过程中仅利用幅度谱,这意味着人类耳朵对相位不敏感。这种具有误导性的历史观点在一定程度上使研究人员对声音相位谱产生了偏见。
- 相位谱的主要问题是相位卷绕,这极大地增加了对相位谱进行解释和处理的难度,使其呈现出混乱且类似噪声的形状,缺乏有意义的趋势或极值点,而幅度谱则更易于理解,并且与我们的心理声学知识相匹配。
- 研究表明,语音相位谱仅在长帧中具有信息价值,而在短帧(20 至 40 毫秒)中携带的信息不多。根据当前信号处理的范式,非平稳信号应分解为短帧,以满足平稳性假设。因此,使用长帧长度没有意义,而且这种趋势在大约三十年的时间里都未得到合理的解释。
不过,已经有一些基于相位(群延迟)的特征被提出用于自动语音识别,如修改后的群延迟函数(MODGDF)和线性调频群延迟函数(CGDF)。这些方法在存在加性噪声的情况下,识别率与 MFCC 相当。但信道噪声失真可能会严重降低它们的性能。一个未解决的问题是,如果相位谱在短帧中确实没有信息,那么为什么基于相位的特征的识别率能与基于幅度的特征相媲美呢?这一点也一直未得到解决和解释。
研究发现,与普遍看法相反,即使在短帧中,语音相位谱也具有很高的信息价值。这意味着语音相位谱存在许多未被探索的潜力。本文旨在研究相
超级会员免费看
订阅专栏 解锁全文
179

被折叠的 条评论
为什么被折叠?



