《统计学习方法》——决策树

本文介绍了决策树模型,包括定义、特征选择、信息增益、信息增益比、决策树生成和剪枝。讨论了CART算法,特别是基尼指数在分类问题中的应用,并提供了使用sklearn库训练决策树的示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 决策树模型与学习

定义5.1(决策树):分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。

用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。

  • 特征选择

随机变量X的熵定义为:H(X)=-\sum_{i=1}^{n}p_{i}logp_{i}

定义5.2(信息增益):特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D)-H(D|A)

定义5.3(信息增益比):特征A对训练数据集D的信息增益比g_{R}(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵H_{A}(D)之比,即:g_{R}(D,A)=\frac{g(D,A)}{H_{a}(D)}

其中,H_{A}(D)=-\sum_{i=1}^{n}\frac{\left | D_{i} \right |}{\left | D \right |}log\frac{\left | D_{i} \right |}{\left | D \right |},n是特征A取值的个数。

  • 决策树的生成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值