关键概念:
一帧信号通过傅里叶变换可以提取出频谱,频谱具有精细结构(反映音高,用处不大)和包络(反映音色,用处大)。
MFCC:梅尔频率倒谱系数,主要描述频谱包络。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度(对于一个很多维(采样点)的数据,可以通过MFCC提取出其中最重要的几个采样点从而降低了数据的维度)。
识别一个未知语音之后,要通过计算其与模板(提前已知)的距离来判断语音是什么意思。比较这个距离,要用到DTW动态弯算法,让待识别语音中的每一帧与模板中最相似的一帧进行匹配,总距离即为各帧匹配后所得的欧氏距离之和。
GMM:高斯混合模型。如果每个词有多个模板,便可把模板训练成模型(将模板切割成多个段落),在采用GMM模型识别语音时,依然是采用动态弯算法,将欧氏距离代替为GMM概率密度,概率最大的模型即为识别结果。
HMM:隐马尔可夫模型。(具体意义见PPT)
Bigram:一个马尔可夫模型。音素HMM模型通过词典复合成单词HMM模型,再由单词HMM模型与语言模型复合成语言HMM。
现在的结构已经应用了神经网络,具体见PPT。
补充资料:https://www.zhihu.com/question/20398418