建议在csdn资源页中免费下载该学习笔记的PDF版进行阅读:)点击进入下载页面
Kaldi决策树状态绑定学习笔记(三)
——EventMap及其派生类、roots文件
到现在为止,程序acc-tree-stats累积好了构建决策树所需的统计量,程序cluster-phones和compile-questions自动生成好了构建决策树所需的问题集,那么我们就可以开始构建决策树,对三音素GMM的状态进行绑定了。但是在构建决策树之前,我们必须理解清楚决策树构建代码中一个很核心的类:EventMap,只有对EventMap及其派生类理解透彻了,才能深入理解Kaldi决策树构建代码。
在这个笔记中,我会首先花大篇幅介绍EventMap及其派生类。因为Kaldi构建决策树除了需要累积好的统计量和问题集,还需要一个roots文件,所以接下来会对roots文件进行说明。
建议学习Kaldi官方文档《Decision tree internals》、《How decision trees are used in Kaldi》。
目录
EventMap
建议学习Kaldi官方文档《Decision tree internals》的Event maps部分。
EventMap是Kaldi决策树状态绑定部分的核心,只有对EventMap理解透彻了,才能看明白构建决策树的代码到底在讲什么。
在Kaldi决策树状态绑定学习笔记(一)里面,我们讲过EventType,在这里只简单介绍下:EventType描述三音素和HMM状态信息,其中保存着四对数,其中三对数表示三音素三个位置上的音素分别是什么,剩下的一对数表示HMM状态编号。
来看几个int32的别名:
1. EventKeyType:和EventValueType成对出现;一般表示三音素的位置,当取值为0,1,2时,分别代表三音素从左到右的三个位置;当取值为-1时(一般用常量kPdfClass表示-1),其对应的EventValueType表示的是HMM的第几个状态,也就是HMM state-id。
2. EventValueType:和EventKeyType成对出现;当EventKeyType取值为kPdfClass(-1)时,该值表示HMM state-id(一般为0,1,2);当EventKeyType取0,1,2时,该值表示三音素EventKeyType位置上的音素编号(从1开始对音素进行编号)。
3. EventAnswerType:表示发射概率密度函数(p.d.f.)的编号pdf-id;在HMM-GMM模型中,发射概率密度函数就是混合高斯函数;每一个(三音素+HMM state-id)都能确定一个HMM状态,而每个HMM状态都有一个发射p.d.f,所以每个EventType都对应一个pdf-id。状态绑定想做的事就是使多个EventType对应到同一个pdf-id,这样就能减少参数,更好的训练模型。
EventType就是四个<EventKeyType, EventValueType>
对,其具体的定义是vector<pair<EventKeyType, EventValueType> >
。
每一个EventType(三音素+HMM state-id)都能确定一个HMM状态,而每个HMM状态都有一个发射p.d.f,我们对模型中所有的p.d.f.进行编号,用不同的pdf-id表示不同的p.d.f,那么从EventType到pdf-id就有一个映射关系,怎么表示这一映射关系?这个时候EventMap就要出场了,EventMap实现了从EventType到pdf-id的映射。
具体来讲,EventMap对象的成员方法Map()实现了从EventType到EventAnwserType的映射。
举个例子,假设三音素是a/b/c,其音素编号分别为10,11,12,我们想知道该三音素第二个HMM状态的pdf-id是多少(假设答案是1000),下面的代码找出该pdf-id:
EventType e = { {-1, 1}, {
0, 10}, {
1, 11}, {
2, 12} };
EventAnswerType ans;
bool re