---最近看信号处理相关的知识,会随时补充或者更正之前写的不对的地方,或者是补充一些自己的理解----
ref: https://www.zhihu.com/question/27268668 等。
语音识别中常用的特征提取方法: 声学特征有线性预测编码(Linear Predictive Coding,LPC),梅尔频率倒谱系数(Mel-frequency Cepstrum Coefficients,MFCC),梅尔标度滤波器组(Mel-scale Filter Bank,FBank), 其中PLP MFCC 是倒谱特征。
梅尔频率倒谱系数:一定程度上模拟了人耳对语音的处理特点
首先是基本步骤:
参考:http://lufo.me/2015/06/ASR1/
(1)预加重(Preemphasizing):在语音信号中,由于声门气流波的影响,每倍频衰减是12dB, 而唇腔辐射是每倍频增加6dB, 所以总的效果是每倍频衰减6dB, 为了弥补这6dB我们采取预加重。由于