决策树与随机森林算法

本文介绍了决策树的学习算法,特别是ID3算法,强调了信息熵、信息增益和信息增益率在构建决策树过程中的作用。还讨论了决策树的停止条件和优化策略,包括修剪枝叶的方法。此外,文章还详细阐述了随机森林的概念,指出其通过多个决策树的组合降低错误率,以及随机森林中的随机采样和完全分裂策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树(分类树)是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树只需要构建一次,每一次预测分类的最大计算次数不超过决策树的深度。

决策树学习算法
ID3算法

通过自顶向下构造决策树来进行学习,构造过程是从”选取分类能力最好的属性作为根节点被测试”开始,然后为根节点属性的每个可能值产生一个分支。选择合适的分割点,将分类的各个子集都很”纯净”。
ID3算法是一种贪心算法,在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准。

量化纯度

如果属性被分为n类,每一类的比例P(i)=第i类的数目/总数目。
(1)Gini不纯度
Gini
(2)熵、信息增益和信息增益率
熵

设D是样本训练集,D的熵为
InfoD
假设按照属性A划分D中的样本,属性A将D划分为v个不同的类。划分之后,训练集的熵为:
InfoA
信息增益为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值