熵(entropy):刻画了任意样例集的纯度(purity),反映不确定性,值越小不确定性越低。公式:
p+代表正样例,如打羽毛球,p-则代表反样例,不去打球。E.g. 9个正例和5个反例的熵为:
Entropy([9+,5-])=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940
正例反例各占一半时,熵为最大值1,即不确定性最大 - 100%。
扩展公式:
信息增益(Information Gain),度量标准是熵,值越大越好。样本按照某属性划分时造成熵减少的期望。属性A相对样例集合S的信息增益Gain(S,A):
e.g.
假定S是一套有关天气的训练样例,描述它的属性包括可能是具有Weak和Strong两个值的Wind。假定S包含14个样例,[9+,5-](9个打羽毛球,5个不去打)。正例中的6个和反例中的2个有Wind =Weak,其他的有Wind=Strong。