ID3 C4.5 CART决策树原理及sklearn实现

最新推荐文章于 2025-07-02 20:19:29 发布

原创

最新推荐文章于 2025-07-02 20:19:29 发布 · 1.5w 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python

本文详细介绍了决策树中的ID3、C4.5和CART算法，包括信息增益、信息增益比、基尼指数等概念，以及它们在构建和剪枝决策树过程中的应用。此外，还讨论了使用Python的sklearn库实现决策树算法的情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述
ID3
C4.5
CART
sklearn之决策树算法的实现
参考文献

问题描述

假设我们有一组训练数据 $D=\{(x_1,y_1),\cdots,(x_N,y_N)\}$ ，这组训练数据代表 $N$ 个样本， $x_i(i=1,\cdots,N)$ 是样本点 $i$ 的特征向量， $y_i$ 是样本点 $i$ 的类别，样本共分为 $K$ 类的情况下， $y_i$ 的取值来自于 $K$ 个类别值 $\{C_1,\cdots,C_K\}$ ，训练数据的特征集合为 $A={A_1,\cdots,A_M}$ ，样本在某个特征 $A_m$ 处可能取到的特征值有 $n$ 个，分别为 $\{a_1^m,\cdots,a_n^m\}$ 。
决策树是一种由结点和有向边构成的树形结构，结点类型分为内部结点和叶结点，每个内部结点代表对象的一个特征，叶结点则代表对象的类别。下图是一个简单的决策树，它通过输入对象的特征自上而下进行判断，并输出对象的类别（通过对象是否常熬夜，是否常运动判断其分类是健康或亚健康）。在下图中，椭圆框代表内部结点，长方形框代表叶结点。

对于一个未知类别的输入对象，决策树自上而下的测试该对象在每个内部结点的特征取值，从而将其分配到相应的子结点或叶结点，当对象被分配到某个叶结点时，便可确定其类别。

ID3

ID3算法的基本流程为：如果某一个特征能比其他特征更好的将训练数据集进行区分，那么将这个特征放在初始结点，依此类推，初始特征确定之后，对于初始特征每个可能的取值建立一个子结点，选择每个子结点所对应的特征，若某个子结点包含的所有样本属于同一类或所有特征对其包含的训练数据的区分能力均小于给定阈值，则该子结点为一个叶结点，其类别与该叶结点的训练数据类别最多的一致。重复上述过程直到特征用完或者所有特征的区分能力均小于给定阈值。
如何衡量某个特征对训练数据集的区分能力呢，ID3算法通过信息增益来解决这个问题。

信息增益

一个离散型随机变量 $x$ 的概率分布为： $P(x=x_i)=p_i,(i=1,\cdots,n)$ ，那么 $x$ 的熵定义如下：

H (x) = - \sum_{i = 1}^{n} p_{i} l o g_{2} p_{i}

$H(x)=-\sum_{i=1}^np_ilog_2p_i$
熵的单位为比特(bit)，定义

0log0=0 0 l o g 0 = 0 $0log0=0$ 。对于两个随机变量

x,y x , y $x,y$ ，他们有如下形式的联合概率分布：

P (x = x i, y = y j) = p i j, (i = 1, \dots, n; j = 1, \dots, K)

$P(x=x_i,y=y_j)=p_{ij},(i=1,\cdots,n;j=1,\cdots,K)$
那么在

x x $x$ 确定的条件下

y

$y$ 的条件熵定义如下：

H (y | x) = \sum i = 1 n p i H (y | x = x i)

$H(y|x)=\sum_{i=1}^np_iH(y|x=x_i)$
数据集的熵表征着其类别的不确定程度，而数据集关于某个特征的条件熵则表征着给定某个特征后，其类别的不确定程度。可以想见，数据集的熵与其关于某个特征的条件熵之差表征着这个特征的确定使数据集不确定性减少的程度，数据集的熵与条件熵的差值叫做信息增益，很容易理解，某个特征的信息增益可以反映这个特征对数据集的分类能力，信息增益越大，证明该特征能更好的对数据集进行分类。

信息增益：数据集 $D$ 的熵为 $H(D)$ ，其关于其某个特征 $A_m$ 的条件熵为 $H(D|A_m)$ ，则信息增益为 $g(D,A_m)$ ， $g(D,A_m)=H(D)-H(D|A_m)$ 。

对于训练样本集来说，其概率是由数据估计得到的，因此其熵与条件熵分别称为经验熵和经验条件熵。经验熵和经验条件熵的计算方式如下：

H (D) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D | g (D, A m) = H (D) - H (D | A m) = H (D) - \sum i = 1 n | D i | | D | H (D i) g (D, A m) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D | + \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D i | l o g 2 | D i k | | D i |

$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}\\g(D,A_m)=H(D)-H(D|A_m)=H(D)-\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)\\g(D,A_m)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}+\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$
其中

|D| | D | $|D|$ 表示数据集