语音识别技术自学笔记

关键概念:

一帧信号通过傅里叶变换可以提取出频谱,频谱具有精细结构(反映音高,用处不大)包络(反映音色,用处大)。

MFCC:梅尔频率倒谱系数,主要描述频谱包络。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度(对于一个很多维(采样点)的数据,可以通过MFCC提取出其中最重要的几个采样点从而降低了数据的维度)。

识别一个未知语音之后,要通过计算其与模板(提前已知)距离来判断语音是什么意思。比较这个距离,要用到DTW动态弯算法,让待识别语音中的每一帧与模板中最相似的一帧进行匹配,总距离即为各帧匹配后所得的欧氏距离之和。

GMM:高斯混合模型。如果每个词有多个模板,便可把模板训练成模型(将模板切割成多个段落),在采用GMM模型识别语音时,依然是采用动态弯算法,将欧氏距离代替为GMM概率密度,概率最大的模型即为识别结果。

HMM:隐马尔可夫模型。(具体意义见PPT)

Bigram:一个马尔可夫模型。音素HMM模型通过词典复合成单词HMM模型,再由单词HMM模型与语言模型复合成语言HMM。


现在的结构已经应用了神经网络,具体见PPT。

补充资料:https://www.zhihu.com/question/20398418

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值