无论是中文还是英文,以tri-phone为基元的建模方案是目前较为成熟的方案;
模型训练流程主要有三步:mono-phone训练、tri-phone训练和状态绑定的tri-phone训练
以中文建模为例,中文有84个phone。
1. mono-phone
Prototype HMM Definition(proto): mono-phone模型的模板,单高斯39维,均值为0,方差为1。
HCompV:计算所有帧的均值和方差,使用全局均值和方差对所有的高斯成份(Gaussian Component)进行初始化,获得hmm0 (包含84个mono-phone的模型)。
HERest:将标注从syllable级依据词典转换为phone级,进行mono-phone的模型迭代。
例如: sil zhong guo sil --> sil zh ong g u o sil
2. tri-phone
使用HLED工具将标注从mono-phone转换为tri-phone
例如: sil zh ong g u o sil --> sil sil-zh+ong zh-ong+g ong-g+u g-u+o u-o+sil sil
使用HHED工具初始化tri-phone模型,用tri-phone的中心phone的模型初始化该tri-phone模型。
类似于monophone,进行HERest模型迭代,并统计状态占有率state occs(stats)。
3. tied tri-phone
通过状态的占有率state occs(stats)和问题集(tree.hed)将triphone和状态进行绑定。
最后使用HERest对绑定后的triphone和状态进行迭代更新。
为什么进行状态绑定?
本文介绍了一种基于Tri-phone的语音识别建模方法,包括单音素、三音素及状态绑定三阶段的训练流程。以中文为例,详细说明了如何从84个音素出发构建大规模的语音识别模型。
1066

被折叠的 条评论
为什么被折叠?



