决策树——（二）决策树的生成与剪枝ID3,C4.5

决策树算法详解：ID3与C4.5的生成与剪枝

最新推荐文章于 2025-03-18 14:37:53 发布

空字符（公众号：月来客栈）

最新推荐文章于 2025-03-18 14:37:53 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：决策树id3算法决策树c4-5 决策树生成

本文链接：https://blog.youkuaiyun.com/The_lastest/article/details/78915862

本文详细介绍了决策树的基本概念，包括信息熵、条件熵和信息增益，并通过实例展示了如何计算这些值。接着，文章解释了ID3算法和C4.5算法的决策树生成过程，指出ID3容易过拟合的问题，而C4.5通过使用信息增益比来改善这一问题。最后，讨论了决策树的剪枝方法，以防止过拟合，确保模型的泛化能力。

1.基本概念

在正式介绍决策树的生成算法前，我们先将之前的几个概念梳理一下：

1.1 信息熵

设 $X$ 是一个取有限个值的离散型随机变量，其分布概率为
$P(X=x_i)=p_i,i=1,2,...,n$

则随机变量 $X$ 的熵定义为
$H(X)=−∑i=1npilog⁡pi(1.1)H(X)=-\sum_{i=1}^np_i\log{p_i}\tag{1.1}$

其中，若 $p_i=0$ ，则定义 $0log⁡0=00\log0=0$ ；且通常 $log⁡\log$ 取2为底和 $e$ 为底时，其熵的单位分别称为比特(bit)或纳特(nat).如无特殊说明，默认2为底。

1.2 条件熵

设有随机变量 $(X, Y)$ ，其联合概率分布分
$P(X=x_i,Y=y_i)=p_{ij},i=1,2,...,n;\;j=1,2,...,m$

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下，随机变量 $Y$ 的不确定性。其定义为
$H(Y∣X)=∑i=1npiH(Y∣X=xi)(1.2)H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)\tag{1.2}$

其中， $p_i=P(X=x_i),i=1,2,...,n$
当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称之为经验熵(empirical entropy)和经验条件熵(empirical coditional entropy)。事实上我们在实际处理的时候确实时用的经验熵和经验条件熵，这一点同朴素贝叶斯中的处理一样。

1.3 信息增益

特征 $A$ 对训练数据集 $D$ 的信息增益 $d (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$g(D,A)=H(D)−H(D∣A)(1.3)g(D,A)=H(D)-H(D|A)\tag{1.3}$

设训练集为 $D$ ， $∣ D ∣$ 表示其样本容量，即样本个数。设有 $K$ 个类 $C_k,k=1,2,...,K;\;|C_k|$ 为属于类 $C_k$ 的样本的个数，即 $∑k=1K∣Ck∣=∣D∣\sum_{k=1}^K|C_k|=|D|$ .设特征 $A$ 有 $n$ 个不同的取值 ${a_1,a_2,...,a_n}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,...,D_n$ , $D_i|$ 为 $D_i$ 的样本个数，即 $∑i=1n∣Di∣=∣D∣\sum_{i=1}^n|D_i|=|D|$ .记子集 $D_i$ 中，属于类 $C_k$ 的样本集合为 $D_{ik}$ ，即 $Dik=Di⋂CkD_{ik}=D_i\bigcap C_k$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数. 则有：
（1）数据集 $D$ 的经验熵 $H (D)$ 为
$H(D)=−∑k=1K∣Ck∣∣D∣log⁡2∣Ck∣∣D∣(1.4)H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}\log_2\frac{|C_k|}{|D|}\tag{1.4}$

（2）特征值A对数据集 $D$ 的经验条件熵 $H (D ∣ A) 为$
$H(D∣A)=∑i=1n∣Di∣∣D∣H(Di)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log⁡2DikDi(1.5)H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}\log_2{\frac{D_{ik}}{D_i}}\tag{1.5}$

（3）信息增益
$g(D,A)=H(D)−H(D∣A)(1.6)g(D,A)=H(D)-H(D|A)\tag{1.6}$

仅看上面的公式肯定会很模糊，还是举个例子来说明一下(将公式同下面的计算式子对比着看会更容易理解).下表是一个由15个样本组成的贷款申请训练数据集。数据包括4个特征，最后一列表示是否通过申请。
$\begin{array}{c|cc} \hline ID&\text{年龄}&\text{有工作}&\text{有自己的房子}&\text{贷款情况}&\text{类别}\\ \hline 1&\text{青年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ 2&\text{青年}&\text{否}&\text{否}&\text{好}&\text{否}\\ 3&\text{青年}&\text{是}&\text{否}&\text{好}&\text{是}\\ 4&\text{青年}&\text{是}&\text{是}&\text{一般}&\text{是}\\ 5&\text{青年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ \hline 6&\text{中年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ 7&\text{中年}&\text{否}&\text{否}&\text{好}&\text{否}\\ 8&\text{中年}&\text{是}&\text{是}&\text{好}&\text{是}\\ 9&\text{中年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ 10&\text{中年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ \hline 11&\text{老年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ 12&\text{老年}&\text{否}&\text{是}&\text{好}&\text{是}\\ 13&\text{老年}&\text{是}&\text{否}&\text{好}&\text{是}\\ 14&\text{老年}&\text{是}&\text{否}&\text{非常好}&\text{是}\\ 15&\text{老年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ \hline \end{array}$
(1)计算 $H (D)$
$H(D)=−(915log⁡2915+615log⁡2615)=0.971H(D)=-(\frac{9}{15}\log_2\frac{9}{15}+\frac{6}{15}\log_2\frac{6}{15})=0.971$