分类算法——决策树

本文介绍了决策树算法的基本原理,包括其构建过程中的关键步骤:如何选择最佳分类属性、何时停止划分形成叶节点以及如何确定叶节点的类别。此外还探讨了几种常用的属性选择度量方法,如ID3的信息增益等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树
非叶节点表示根据属性判断,分枝表示判断结果流向,叶节点表示分类结果(类标号)

主要流程
1)选择在这一层用哪个属性作分类属性(这里的选择标准就是属性选择度量)
2)根据1)在当前节点进行数据的分类
3)按上两个步骤做下去,直到到达叶节点

问题细节
何时到达叶节点、叶节点的节点值怎么确定:
1、如果流到这个分枝的所有数据都已经属于同一个类了,那么这就是个叶节点,节点值就是这个类的类标号。这就是可能会出现属性没用完但是已经分好类的情况;
2、如果流到这个分枝的所有数据属性取值都一致,但它们的类标号又是不一样的,也就是说没有哪个属性可以把这个分枝里的数据区分开了,那么这就是个叶节点,节点值按照少数服从多数来取。这就是可能会出现属性用完了但是没分好类的情况;

属性选择度量
这个概念解决的是“如何选出一个最适合在这一层作为分类标准的属性”,最适合,在这里就是 “按照属性的不同取值来分类,分出了按照类标号分类的效果,或是最大程度上帮助数据朝着这个效果上进展”。
对于这个“最适合”,有几种经典的度量方式:ID3(信息增益)、C4.5(增益率)、GINI index(基尼指数)

ID3:
熵:混乱度
信息增益:混乱度变小的越多,信息增益越大
计算公式:blahblah

C4.5:
blah
好累,改天再写

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值