熵
1) 定义
熵又可以称为自信息,可以视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不缺定性越大,那么正确估计其值的可能性就越小,越不确定的随机变量越需要大的信息量用以确定其值。
2)联合熵
3)条件熵
4) 互信息(用于断词)
根据熵的连锁规则,有
因此,
这个差叫做X和Y的互信息,记作I(X;Y),其反应的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。
互信息越大,说明两汉字关联度强。
5) 相对熵
6) 交叉熵
7) 困惑度
本文介绍了信息论的基础概念,包括熵的定义,它衡量随机变量的不确定性;条件熵描述了在已知另一个变量的情况下,一个变量的不确定性;互信息用于断词,反映了两个变量之间的关联强度,越大表明关联度越高;此外还讨论了相对熵和交叉熵等重要概念。
6万+

被折叠的 条评论
为什么被折叠?



