决策树算法总结（下：CART决策树）

最新推荐文章于 2023-10-09 21:47:30 发布

陈小虾

最新推荐文章于 2023-10-09 21:47:30 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： CART树决策树

本文链接：https://blog.youkuaiyun.com/ch18328071580/article/details/99224997

本文深入探讨了CART（Classification And Regression Trees）决策树算法，包括其在分类和回归任务中的应用。CART算法使用基尼指数进行特征选择，建立二叉树模型，简化了ID3和C4.5算法中的复杂度。CART分类树通过基尼指数最小化选择最佳属性，而CART回归树则采用平方误差最小准则。此外，文章还介绍了CART树的剪枝算法，通过交叉验证选择最佳剪枝策略，以提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上一篇文章中，讲解了ID3决策树及C4.5决策树，但是特们仍有许多不足：比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归等。对于这些问题， CART算法大部分做了改进。由于CART算法可以做回归，也可以做分类，我们分别加以介绍，先从CART分类树算法开始，重点比较和C4.5算法的不同点。接着介绍CART回归树算法，重点介绍和CART分类树的不同点。然后我们讨论CART树的建树算法和剪枝算法，最后总结决策树算法的优缺点。

一、CART树原理

CART 全称为 Classification And Regression Trees，即分类回归树。顾名思义，该算法既可以用于分类还可以用于回归。

克服了 ID3 算法只能处理离散型数据的缺点，CART 可以使用二元切分来处理连续型变量。二元切分法，即每次把数据集切分成两份，具体地处理方法是：如果特征值大于给定值就走左子树，否则就走右子树。对 CART 稍作修改就可以处理回归问题。先前我们使用香农熵来度量集合的无组织程度，如果选用其它方法来代替香农熵，就可以使用树构建算法来完成回归。

与ID3决策树及C4.5决策树一样，CART是决策树的一种，主要由特征选择，树的生成和剪枝三部分组成。它主要用来处理分类和回归问题，下面对分别对其进行介绍。

本部分将构建两种树，第一种是分类树；第二种是回归树。

二、CART分类树

2.1 特征选择

CART分类树使用基尼指数最小化准则来选择最佳属性。

ID3算法使用了信息增益来选择特征，信息增益大的优先选择。C4.5算法采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5，都是基于信息论的熵模型的，这里面会涉及大量的对数运算。因此，我们希望有一种方法简化模型同时又不至于完全丢失熵模型的优点，这就是基尼系数。CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。

在分类问题中，假设有K个类别，第k个类别的概率为 $p_k$ , 则基尼系数的表达式为：
$Gini(p)=∑k=\sum_{k=1}^{K}p_k(1−p_k)=1-\sum_{k=1}^{K}p^2_k$

如果是二类分类问题，计算就更加简单了，如果属于第一个样本输出的概率是p，则基尼系数的表达式为：
$G i n i (p) = 2 p (1 - p)$

对于个给定的样本D,假设有K个类别, 第k个类别的数量为 $C_k$ ,则样本D的基尼系数表达式为：
$Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_k|}{|D|})^2$

特别的，对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分，则在特征A的条件下，D的基尼系数表达式为：
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$

其中：

Gini(D)：表示集合D的不确定性。
Gini(A,D)：表示经过A=a分割后的集合D的不确定性。

对比基尼系数表达式和熵模型的表达式，二次运算要比对数简单很多，尤其是二类分类的计算，更加简单。但是简单归简单，和熵模型的度量方式比，基尼系数对应的误差有多大呢？对于二类分类，基尼系数和熵之半的曲线如下：
在这里插入图片描述
　从上图可以看出，基尼系数和熵之半的曲线非常接近，仅仅在45度角附近误差稍大。因此，基尼系数可以做为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时，为了进一步简化，CART分类树算法每次仅仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。这样一可以进一步简化基尼系数的计算，二可以建立一个更加优雅的二叉树模型。

2.2 建立流程

算法从根节点开始，用训练集递归的建立CART树。

1）对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。
2）计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。
3）计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数。
4）在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2.
5）对左右的子节点递归的调用1-4步，生成决策树。

对于生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。