决策树（ID3 C4.5 CART）_决策树代价复杂度剪枝动态规划-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_20602929/article/details/50901617

本文介绍了决策树的基本原理和应用，详细讲解了ID3、C4.5和CART算法。通过信息熵、信息增益和信息增益比等概念阐述特征选择，展示了如何生成和剪枝决策树，以提升模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树(decision tree)是一种基本的分类与回归方法

——用于分类的决策树

决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程

可以被认为是if-then规则的集合，也可以是定义在特征空间与类空间上的条件概率分布

——损失函数最小化原则

步骤：特征选择、决策树的生成、决策树的剪枝

Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,Breiman等人在1984年提出的CART算法

决策树模型

决策树由结点和有向边组成

结点由内部结点(特征和属性)和叶结点(类)组成

决策树与条件概率分布

决策树学习

决策树学习用损失函数表示这一目标——通常是正则化的极大似然函数

损失函数确定后，学习问题转为损失函数意义下选择最优决策树

——从所有可能的决策树中选取最优决策树是NP完全问题，所以通常用启发式方法，近似求解，得到次最优解

一种方法

构建根结点，所有训练数据嚷道根结点
选择一个<strong>最优特征</strong>
根据特征分割训练数据为不同子集——当前最好分类
if 子集基本分类，then构造叶结点
if not <strong>重选特征</strong>继续分割
递归
生成决策树<em>

</em>

以上方法生成决策树对训练数据有很好分类能力，但对未知数据可能发生 过拟合现象— —预测能力

所以需要自下而上剪枝，让树更简单，从而增强泛化能力——去掉过于细分的结点，回退父结点

如果特征数量过多，开始对特征进行选择

算法包括：特征选择、决策树的生成、决策树的剪枝

——决策树生成考虑局部最优，剪枝考虑全局最优

特征选择

信息熵
    信息熵是随机变量的期望。度量信息的不确定程度。
信息的熵越大，信息就越不容易搞清楚。处理信息就是
为了把信息搞清楚，就是熵减少的过程。
   Entropy(X) = -Sum(p(xi) * log(p(xi))) {i: 0 <= i <= n}
   p(x)是概率密度函数；对数是以2为底；

信息增益
   用于度量属性A降低样本集合X熵的贡献大小。信息增益
越大，越适于对X分类。