熵(entropy)

熵(entropy):刻画了任意样例集的纯度(purity),反映不确定性,值越小不确定性越低。公式:


p+代表正样例,如打羽毛球,p-则代表反样例,不去打球。E.g. 9个正例和5个反例的熵为:

Entropy[9+5-]=-9/14log29/14-5/14log25/14=0.940

正例反例各占一半时,熵为最大值1,即不确定性最大 - 100%


扩展公式:

 

信息增益(Information Gain),度量标准是熵,值越大越好。样本按照某属性划分时造成熵减少的期望。属性A相对样例集合S的信息增益Gain(S,A)


e.g.

假定S是一套有关天气的训练样例,描述它的属性包括可能是具有WeakStrong两个值的Wind。假定S包含14个样例,[9+5-]9打羽毛球,5个不去打。正例中的6个和反例中的2个有Wind =Weak其他的有Wind=Strong


在上图中,计算了两个不同属性:湿度(humidity)和风力(wind)的信息增益,最终humidity这种分类的信息增益0.151>wind增益的0.048。说白了,就是在星期六上午是否适合打网球的问题诀策中,采取humiditywind作为分类属性更佳,决策树由此而来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值