决策树（一）—— 信息熵及衍生概念

最新推荐文章于 2024-10-28 16:01:47 发布

原创最新推荐文章于 2024-10-28 16:01:47 发布 · 658 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#信息熵 #机器学习 #决策树

机器学习/深度学习专栏收录该内容

22 篇文章

订阅专栏

本文深入探讨了信息熵的概念，包括信息量、信息熵、条件熵、信息增益及其在机器学习中的应用。通过实例解释了如何计算信息熵，并讨论了信息增益比在决策树算法中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息熵及衍生概念

信息量

首先明确一个概念，信息和质量、时间、长度等一样，也是一个物理概念，其最小单位是bit，也就是二进制一位所代表的信息大小。

时间过了5秒，代表着过了5个原子钟（世界上最准的那个）的一秒这么长的时间，即5*1=5。

那信息有3bit，就代表着抛三次硬币所能产生结果的信息大小，我们知道有 $2^3=8$ 种结果。

那么信息量的大小就能计算了，因为 $3=log_28$ 。也就是说要计算信息量，我们只要知道有多少种结果就行了（等可能）。假设结果总数为N，则信息量公式为：
$H=log_2N$

信息熵

信息熵代表着某事件对某人而言不确定性的大小。而不确定性的大小跟信息量的大小是一回事儿。

比如做选择题，ABCD四个选项，小明完全不会这题，只能瞎猜，那么这题对于小明而言的信息熵为 $log_24=2$ ,当有人告诉小明C是错的时，答案的不确定性减小了，这题的信息熵就变成了 $log_23=1.585$ 。

当然目前所谈都是等可能的情况，一切的基础都是基于定义了投一次硬币的那个1比特信息,而那个1bit就是两种情况等可能。

如果一件事的概率是1/5，另一件事的概率是4/5呢？其实还是一样的，1/5可以看成5件事等可能，4/5可以看成1.25件事等可能发生。于是我们同样可以计算信息量 $log_25=2.32,log_21.25=0.32$ ,这样一来，信息量的公式就能更新为：
$H=log_2\frac1p=-log_2p$
信息熵是对于一个事件总体而言的，也就是把所有的信息量相加，信息量前面乘个概率就成了信息熵，事件X的信息熵即为：
$H(X)=-\sum_i^np_ilog_2p_i$

条件熵

这个概念的定义类似于条件概率，在某特征的信息已知的情况下，某个事件的信息熵称为条件熵。记为 $H (X ∣ Y)$ 。

假设特征Y有m中可能，则条件熵可定义为：
$\sum_j^mp_jH(X|Y=j)$

信息增益

信息增益就是信息熵与条件熵的差。

一开始我们对某件事浑然不知，那么这件事的不确定性肯定最大；

后来我们知道了一些信息（比如C是错误答案），那么事情的不确定性就小了（所以条件熵一定小于信息熵）。

这个熵的减小同样可以看成是信息的增加。
$g (X, Y) = H (X) - H (X ∣ Y)$

信息增益比

ID3就是用信息增益来排列特征的优先级的，但是容易出问题，就是分叉多的特征他优先级太高，你分叉本来就多，信息熵本来就大，你一确定当然信息增益就大了，这不是欺负人嘛。

于是就有了C4.5。

不再按 $g (X, Y)$ 来排序,而是用信息增益比 $g_R(X,Y)$ 来排序， $g_R(X,Y)$ 的定义如下：
$g_R(X,Y)=\frac{g(X,Y)}{H(Y)}$
这样就等于是用单位信息熵下的信息增益来排序，更加公平一些。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。