单个随机变量的熵为该随机变量的不确定度。
对于属性A,它的熵由以下公式计算:
(4)
其中,P(a)是属性A的概率分布。对于分类信息的信息熵H(class)同样由公式(4)计算得出。
在属性A在class条件下的熵,条件熵H(class|A)由以下公式计算:(5)
其中,P(l,a)为class与A的联合概率分布,P(l|a) 为class与A的条件概率分布。
信息增益是由另一随机变量导致的原随机变量不确定度的缩减量。信息增益率是不确定度的缩减量占自身信息熵的比例。属性A相对于class的信息增益率GainRatio(class,A)由以下公式计算:
(6)
本文介绍了信息熵的概念及其计算方法,并进一步解释了条件熵、信息增益和信息增益率等概念。通过这些概念我们可以量化信息的不确定性,并评估不同属性对于分类任务的价值。
779

被折叠的 条评论
为什么被折叠?



