【李航统计学习】学习笔记第六篇第五章：决策树之CART算法

最新推荐文章于 2024-01-29 18:09:44 发布

努力买新衣服的Chilly

最新推荐文章于 2024-01-29 18:09:44 发布

阅读量392

点赞数

文章标签：决策树算法学习

本文链接：https://blog.youkuaiyun.com/jql20182107/article/details/126196747

版权

本文解析了CART算法的决策树生成过程，介绍了如何通过基尼指数选择分类特征和分割点，以及如何通过最小平方误差进行回归树构建。重点讲解了剪枝策略，包括如何通过损失函数比较和交叉验证选择最优子树，以提高模型预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分类与回归树（classification and regression tree , CART）是应用广泛的决策树学习算法。CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的方法学习方法。CART假设决策树是二叉树，内部节点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。

CART算法由以下两步组成：
（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；
（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

5.5.1 CART生成

决策树的生成就是递归的构建二叉决策树的过程。对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

回归树的生成
最小二乘回归树生成算法：
分类树的生成

（1）分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。

（2）分类问题中，假设有K个类，样本点属于第k类的概率为pk，则概率分布的基尼指数定义为：在这里插入图片描述
对于二分类问题，则概率分布的基尼指数为：，对于给定的样本D集合，其基尼指数为：这里Ck是D中属于第k类的样本子集，K是类的个数。

（3）如果样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分，即
在这里插入图片描述
则在特征A的条件下，集合D的基尼指数定义为：
基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数越大，样本集合的不确定性就越大，这一点与熵相似。