决策树进阶（一）划分准则-公式篇

最新推荐文章于 2025-07-14 05:00:00 发布

嘀嗒嘀嘀嗒嘀

最新推荐文章于 2025-07-14 05:00:00 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习-理论

本文链接：https://blog.youkuaiyun.com/ACBattle/article/details/89071883

机器学习-理论专栏收录该内容

33 篇文章

订阅专栏

本文详细介绍了信息熵、条件熵、信息增益等概念，并对比了不同决策树算法（如ID3、C4.5及CART）中使用的特征选择标准，包括信息增益比与基尼系数等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、信息熵

$-\sum_{i=1}^n p(x_i)log_2p(x_i)$ ---------注意负号
$x_i表示x取值为x_i$
$p(x_i)表示值为x_i出现的概率$

概率越大，或者越小，信息熵的值是减小的。
概率 = 0.5 的时候，最不确定，信息熵是最大的，所以 $log_2$ 。

2、条件熵

$\sum_{x∈X} p(x)H(Y|X=x)$
对熵加一个条件

3、信息增益（ID3）

即为熵和条件熵的差

$\begin{cases} H(D) = -\sum_{d∈D} p(d)log_2p(d),& \text {数据集的熵} \\H(D|A) = \sum_{d∈D} p(d)H(A|D=d) ,& \text {数据集在A特征上的条件熵}\\ gain(D,A)=H(D)－H(D|A) ,& \text {信息增益} \end{cases}$
D为整个数据集，A为某个特征，d为类别

对一个确定的数据集来说，H(D)是确定的。
H(D|A)在A特征一定的情况下，随机变量的不确定性越小，信息增益越大，这个特征的表现就越好。
所以，信息增益就是在得知特征A一定的情况下，D不确定性的减少程度。
简单来说，就是加入了A特征后，可分辨性增加了多少！
eg.是否买过头绳 $D(d ∈\{1,0\})$ 这个问题，知道了A性别后，会变得很容易分类了。