HTK 第三章 模型训练示例

本文介绍了一种基于Tri-phone的语音识别建模方法,包括单音素、三音素及状态绑定三阶段的训练流程。以中文为例,详细说明了如何从84个音素出发构建大规模的语音识别模型。

无论是中文还是英文,以tri-phone为基元的建模方案是目前较为成熟的方案;

模型训练流程主要有三步:mono-phone训练、tri-phone训练和状态绑定的tri-phone训练

以中文建模为例,中文有84个phone。

1. mono-phone


Prototype HMM Definition(proto): mono-phone模型的模板,单高斯39维,均值为0,方差为1。

HCompV:计算所有帧的均值和方差,使用全局均值和方差对所有的高斯成份(Gaussian Component)进行初始化,获得hmm0 (包含84个mono-phone的模型)。

HERest:将标注从syllable级依据词典转换为phone级,进行mono-phone的模型迭代。

例如: sil zhong guo sil  --> sil zh ong g u o sil

2. tri-phone


使用HLED工具将标注从mono-phone转换为tri-phone

例如: sil zh ong g u o sil  -->  sil  sil-zh+ong  zh-ong+g  ong-g+u  g-u+o  u-o+sil  sil

使用HHED工具初始化tri-phone模型,用tri-phone的中心phone的模型初始化该tri-phone模型。

类似于monophone,进行HERest模型迭代,并统计状态占有率state occs(stats)。

3. tied tri-phone


通过状态的占有率state occs(stats)和问题集(tree.hed)将triphone和状态进行绑定。

最后使用HERest对绑定后的triphone和状态进行迭代更新。


为什么进行状态绑定?

使用tri-phone建模,phone的个数为84个,tri-phone个数84*84*84=60W
按每个tri-phone 5状态为例,中心3个有效状态,共180W有效状态;
按每个状态4高斯计算,共720W个高斯,模型size接近GB级别,估计这么多参数,数据是个问题。

因此,必须使用某种策略降低参数规模。

能否减少状态规模? 使用状态绑定策略





评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值