语音信号处理基础(三)
倒谱分析(Cepstrum Analysis)
下面是一个语音的频谱图。峰值表示语音的主要频率成分,我们把这些峰值称为共振峰(formants),共振峰携带了声音的辨识属性(就像个人身份证一样),特别重要,用它就可以识别不同的声音。

我们要提取的不仅仅是共振峰的位置,还得提取它们转变的过程。所以我们提取的是频谱的包络(Spectral Envelope)。这包络就是一条连接这些共振峰点的平滑曲线。

将原始的频谱由两部分组成:包络和频谱的细节。这里用到的是对数频谱,所以单位是dB(分贝)。我们需要把这两部分分离,就可以得到包络了。

在给定log X[k]的基础上,求得log H[k] 和 log E[k]以满足log X[k] = log H[k] + log E[k]。为了达到这个目标,我们需要对频谱做FFT。在频谱上做傅里叶变换就相当于逆傅里叶变换Inverse FFT (IFFT)。需要注意的一点是,我们是在频谱的对数域上面处理的。在对数频谱上面做IFFT就相当于在一个伪频率(pseudo-frequency)坐标轴上描述信号。

由上图可

倒谱分析是语音信号处理中的关键技术,用于提取频谱的包络,即共振峰,以识别不同声音。通过对语音频谱取对数、做傅里叶逆变换,可以得到频谱的低频部分,即倒谱,它描述了频谱的包络,在语音识别中具有重要应用。
最低0.47元/天 解锁文章
365

被折叠的 条评论
为什么被折叠?



