
语音识别
Li Kang
这个作者很懒,什么都没留下…
展开
-
语音数据集汇总
1. 噪声集The QUT-NOISE dataset, Café,Car,Home,Reverb,Street,约12小时数据,其中reverbe_pool可以删除。Environmental Background Noise dataset, Babble,Car,Machinery,约30秒一条,一共253条noise set from the MUSAN corpus 长短不一,各...原创 2020-03-17 20:52:36 · 9321 阅读 · 2 评论 -
隐马尔可夫模型学习笔记(之一,概率计算问题)
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。原创 2018-06-15 13:58:10 · 2860 阅读 · 0 评论 -
隐马尔可夫模型学习笔记(之二,学习算法)
隐马尔可夫模型的学习,根据训练数据是包括观测序列和状态序列还是只有观测序列,可以分别由监督学习与非监督学习实现。由于监督学习需要使用训练数据,而人工标注训练数据往往代价很高,有时就会利用非监督学习的方法,即Baum-Welch算法(也就是EM算法)。在介绍学习算法之前,先介绍一些概率和期望值的计算。这些计算会成为Baum-Welch算法公式的基础。原创 2018-06-21 09:41:02 · 1393 阅读 · 0 评论 -
HTK 3.5解码工具HVITE独立工程(Visual Studio Code实现)
HTK3.5支持DNNHTK3.5支持DNN了,本来想做一个HMM+DNN的模型,作为HMM+GMM的对比。但是HTK不支持实时的HMM+DNN解码。原因有两个。HTK不支持实时的计算MFCC_0_D_A_Z的特征,即无法实时计算出特征空间的均值。HTK不支持实时的DNN或者HMM+DNN的解码。所以只能做离线的演示。为了学习HVITE的细节,我决定将HVITE工具单独编译。HTK的...原创 2018-11-24 14:53:59 · 1114 阅读 · 0 评论