决策树(ID3 C4.5 CART)

本文介绍了决策树的基本原理和应用,详细讲解了ID3、C4.5和CART算法。通过信息熵、信息增益和信息增益比等概念阐述特征选择,展示了如何生成和剪枝决策树,以提升模型的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树(decision tree)是一种基本的分类与回归方法

——用于分类的决策树


决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程

可以被认为是if-then规则的集合,也可以是定义在特征空间与类空间上的条件概率分布

——损失函数最小化原则

步骤:特征选择、决策树的生成、决策树的剪枝

Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,Breiman等人在1984年提出的CART算法



决策树模型



决策树由结点有向边组成

结点由内部结点(特征和属性)和叶结点()组成





决策树与条件概率分布





决策树学习


决策树学习用损失函数表示这一目标——通常是正则化的极大似然函数


损失函数确定后,学习问题转为损失函数意义下选择最优决策树

——从所有可能的决策树中选取最优决策树是NP完全问题,所以通常用启发式方法,近似求解,得到次最优解



一种方法

构建根结点,所有训练数据嚷道根结点
选择一个<strong>最优特征</strong>
根据特征分割训练数据为不同子集——当前最好分类
if 子集基本分类,then构造叶结点
if not <strong>重选特征</strong>继续分割
递归
生成决策树<em>

</em>

以上方法生成决策树对训练数据有很好分类能力,但对未知数据可能发生 过拟合现象— —预测能力

所以需要自下而上剪枝,让树更简单,从而增强泛化能力——去掉过于细分的结点,回退父结点


如果特征数量过多,开始对特征进行选择

算法包括:特征选择、决策树的生成、决策树的剪枝

——决策树生成考虑局部最优,剪枝考虑全局最优



特征选择


息熵
    信息熵是随机变量的期望。度量信息的不确定程度。
信息的熵越大,信息就越不容易搞清楚。处理信息就是
为了把信息搞清楚,就是熵减少的过程。
    Entropy(X) = -Sum(p(xi) * log(p(xi))) {i: 0 <= i <= n}
    p(x)是概率密度函数;对数是以2为底;


信息增益
   用于度量属性A降低样本集合X熵的贡献大小。信息增益
越大,越适于对X分类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值