Kaldi AMI数据集脚本学习5---AMI mono phone文件 40.mdl分析

这篇博客介绍了Kaldi中处理AMI数据集的mono phone模型文件40.mdl,重点关注了模型中每一分量高斯分布的常量部分——log后的gconsts值。通过参考链接提供了深入理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用kaldi训练mono phone之后会在esp/mono/目录下产生一个40.mdl文件, 查看exp/mono/40.mdl 命令:

kaldi/src/gmmbin/gmm-copy --binary=false exp/mono/40.mdl -

1. 首先是<TransitionModel>

                 <Topology>
                   <TopologyEntry>
                     <ForPhones>
                        音素hmm状态转移概率模型
                     </ForPhones>
                   </TopologyEntry>
                 </Topology>
    不过看到的0.mdl和40.mdl转移概率值是相同的,所以转移概率等应该是储存在HCLG.fst文件中的。

2. 接着是<Triples>  音素 hmm状态index pdfid

<Triples> 568
1 0 0
1 1 1
1 2 2
1 3 3
1 4 4
2 0 0
2 1 1
2 2 2
2 3 3
2 4 4
.....

    1~20为SIL,含5个状态

    21~176为发音音素,含3个状态

    共有20*5+(177-21)*3=568个transition state

    得益于决策树的聚类, PDF数量减少了一些,为137.


3. 然后是<Logprobs>

这个LogProbs是和transition-id对应起来的,描述了转移概率.

4. 然后是<Dimension>39 <numPDFs>201
对角GMM 的参数,重复201次 每个对应hmm的一个pdf,一共201个
  <DiagGmm>
     <GCONSTS>[-85.27087]
     <WEIGHTS>[1] 权重
     <MEAN_INVVARS>[…]39维 均值
     <INV_VARS>[…]39维 方差
</DiagGmm>

其中:为了方便计算,在里面记录了每一分量多维高斯分布里的常量部分取log后的数值gconsts。


参考:

[1]  https://www.jianshu.com/p/9b6cc95668a9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值