决策树详解

决策树是一种基于特征向量划分特征空间的分类方法。文章详细介绍了信息增益、熵、条件熵、信息增益比等概念,用于确定特征选择。此外,还探讨了决策树的剪枝策略,以防止过拟合,提高模型泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树

决策树通过分析样本的特征分布情况对实例进行分类或预测输出值。决策树每深入一层都是在选定特征向量划分特征空间,到达叶结点时,即可得到实例对应的类别或输出值。

信息增益

决策树每深入一层都需要选定一个特征向量,那么选定哪个特征向量会更有利于分类呢,这需要用到信息增益。

首先我们要了解信息熵,熵是表示随机变量不确定性的度量,熵越大那么随机变量的不确定性就越大。这个概念借用自热力学中的熵,热力学中的熵是体系混乱程度的度量,熵越大,体系越混乱,越混乱,自然不确定性就越大。

设X是一个取有限个值的离散随机变量,在决策树中它是特征向量也是实例归属的种类(有限个离散值),当为特征向量时,特征向量亦有有限个离散取值。

例如球有三种属性

  1. X(1)X^{(1)}X(1)材质:塑料;金属
  2. X(2)X^{(2)}X(2)质量:100g;300g
  3. X(3)X^{(3)}X(3)体积:50cm350cm^350cm3100cm3100cm^3100cm3

我们规定,球的颜色由其属性决定,有三种可能:红色、绿色、蓝色。那么X可以是颜色,也可以是属性(特征向量)如:材质。

X的概率分布为
P(X=xi)=pi,i=1,2,...,n(1) P(X=x_i)=p_i,i=1,2,...,n \tag 1 P(X=xi)=pi,i=1,2,...,n(1)
其中xix_ixi是X的可能取值,当X为球的颜色时,x1=red,x2=green,x3=bluex_1=red,x_2=green,x_3=bluex1=red,x2=green,x3=blue

则随机变量X的熵定义为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值