熵（entropy）

最新推荐文章于 2025-07-08 12:42:09 发布

textboy

最新推荐文章于 2025-07-08 12:42:09 发布

阅读量2.7k

点赞数 1

分类专栏： DataAnalysis 文章标签：熵 entropy

DataAnalysis 专栏收录该内容

35 篇文章

订阅专栏

熵（entropy）：刻画了任意样例集的纯度（purity），反映不确定性，值越小不确定性越低。公式：

p+代表正样例，如打羽毛球，p-则代表反样例，不去打球。E.g. 9个正例和5个反例的熵为：

Entropy（[9+，5-]）=-（9/14）log2（9/14）-（5/14）log2（5/14）=0.940

正例反例各占一半时，熵为最大值1，即不确定性最大 - 100%。

扩展公式：

信息增益(Information Gain)，度量标准是熵，值越大越好。样本按照某属性划分时造成熵减少的期望。属性A相对样例集合S的信息增益Gain(S,A)：

e.g.

假定S是一套有关天气的训练样例，描述它的属性包括可能是具有Weak和Strong两个值的Wind。假定S包含14个样例，[9+，5-]（9个打羽毛球，5个不去打）。正例中的6个和反例中的2个有Wind =Weak，其他的有Wind=Strong。

在上图中，计算了两个不同属性：湿度(humidity)和风力(wind)的信息增益，最终humidity这种分类的信息增益0.151>wind增益的0.048。说白了，就是在星期六上午是否适合打网球的问题诀策中，采取humidity较wind作为分类属性更佳，决策树由此而来。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。