语音信号处理基础(三)
倒谱分析(Cepstrum Analysis)
下面是一个语音的频谱图。峰值表示语音的主要频率成分,我们把这些峰值称为共振峰(formants),共振峰携带了声音的辨识属性(就像个人身份证一样),特别重要,用它就可以识别不同的声音。
我们要提取的不仅仅是共振峰的位置,还得提取它们转变的过程。所以我们提取的是频谱的包络(Spectral Envelope)。这包络就是一条连接这些共振峰点的平滑曲线。
将原始的频谱由两部分组成:包络和频谱的细节。这里用到的是对数频谱,所以单位是dB(分贝)。我们需要把这两部分分离,就可以得到包络了。
在给定log X[k]的基础上,求得log H[k] 和 log E[k]以满足log X[k] = log H[k] + log E[k]。为了达到这个目标,我们需要对频谱做FFT。在频谱上做傅里叶变换就相当于逆傅里叶变换Inverse FFT (IFFT)。需要注意的一点是,我们是在频谱的对数域上面处理的。在对数频谱上面做IFFT就相当于在一个伪频率(pseudo-frequency)坐标轴上描述信号。
由上图可