决策树问题汇总

本文详细介绍了决策树的学习原理,包括信息熵、信息增益、基尼指数等概念,并讨论了ID3、C4.5和CART算法的区别。此外,还阐述了决策树的剪枝策略,如预剪枝和后剪枝,以防止过拟合。最后,对比了决策树与其他模型的优点,如直观性、处理离散和连续值的能力以及泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


1. 简述决策树原理?

        决策树是一种基本的分类与回归方法。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树是一种自上而下,对样本数据进行树形分类的过程,由节点和有向边组成。
节点分为内部节点和叶节点,每个内部节点表示一个特征或属性,叶节点表示类别,边代表划分的条件。
从顶部节点开始,所有样本聚在一起,经过根节点的划分,样本被分到不同的子节点中,再根据子节点的特征进一步划分,直至所有样本都被归到某个类别。

构建决策树 就是一个递归的选择内部节点,计算划分条件的边,最后到达叶子节点的过程。


  • 模型: 分类决策树由结点和有向边组成,结点分为内部结点和叶结点。决策树的路径具有互斥且完备的性质。
  • 策略: 决策树学习本质上是从训练数据集中归纳出一组分类规则。从所有可能的决策树中选取最优决策树是 NP 完全问题,所以现实中常采用启发式方法近似求解。
  • 算法: 决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。生成只考虑局部最优,剪枝则考虑全局最优。
  • 特征选择(核心公式):
    • 信息熵: 熵是衡量随机变量不确定性的度量。熵越大,随机变量的不确定性就越大。
      设:随机变量X的概率分布为: P ( X = x i ) = p i , i = 1 , 2 , . . . , n P(X=x_i)=p_i, i=1,2,...,n P(X=xi)=pi,i=1,2,...,n ,则随机变量X的熵定义为: H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^{n}p_ilog{p_i} H(X)=i=1npilogpi p i = 1 n p_i=\frac{1}{n} pi=n1时,随机变量的熵最大等于logn,故 0 ≤ H ( X ) ≤ l o g n 0 \leq H(X) \leq logn 0H(X)logn.

    • 条件熵: 条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。
      H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i) H(YX)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值