ML_3 决策树 Entscheidungsbäume

本文深入探讨决策树算法,包括ID3、C4.5、ID5R和随机森林的原理与应用。分析了熵、Gewinn在决策树构建中的作用,以及如何通过剪枝避免过拟合。同时,对比了不同决策树算法的特点与优劣。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这章就屡一下公式以及适用的方法
ID3–非增量过程
entropie 根据标签生成熵
在这里插入图片描述
计算每一个属性的熵之和相减
在这里插入图片描述
最大的Gewinn对应的属性最优
+Occam’s Razor+尽可能简单的结构,而ID3生成的树很容易很复杂
Overfitting 如果出现噪声,容易Overfitting
C4.5–改变了ID3通过生成的规则(剪枝)
由于Gewinn的方法,使得最优的属性更偏向于数据较少的一项
解决办法就是乘法属性采用比例的方式,通过判断GewinnAnteil在剪枝前后的变化来判断要不要剪枝,如果剪枝后GewinnAnteil增加就剪枝
在这里插入图片描述
ID5R–增量过程
跟ID3得到的结果其实是一样的,但是区别就是例子不断地在增加所以称之为增量过程
在这里插入图片描述
上图是两个例子得到的图,跟ID3的算法一样也是用Entropie判断的
但是再增加离子的时候,发现了不同的最优的属性来分类,所以变化了
在这里插入图片描述
想起了 周志华 机器学习里的决策树后面的小趣事,这个ID5R虽然从名字上看比较像是ID3的改进,但是不是ID3的本人,他的最终版是C4.5就是商业化的最终版,因为他想叫类似ID4,ID5这样的名字的时候被人抢了先机。

random forest

随机选属性组成很多的树,不剪枝
类似于adaboost,但是用的是boosting的方法,随机抽取例子,用树来判断,给树打分,然后就会得到一个有权重的大树。
对于大量数据很有效

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值