决策树与随机森林

本文介绍了决策树的概念,包括信息熵、常见算法如ID3、C4.5、CART,以及sklearn库中的实现。接着讨论了决策树的优缺点和改进方法,如减枝和随机森林。随机森林部分阐述了其工作原理、构建过程及sklearn API的使用,同时指出随机森林的优缺点在于高准确性但可能因树的数量过多导致资源消耗大。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、决策树

决策树(分类)定义:分类决策树模型是一种描述对实例进行分类得树形结构,决策树由节点(node)和有向边(directed edge)组成,节点有两种类型:内部节点(internal node)和叶结点(leaf node),内部结构表示一个特征或属性,叶结点表示一个类;
信息熵:单位比特,计算公式如信息熵信息增益:决策树得划分依据之一,特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为
信息增益计算公式
常见决策树使用得算法:ID3:信息增益;C4.5:信息增益比;CART:回归树是平方误差最小,分类树采用得是基尼系数;
sklearn决策树API:sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None),其中,criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’,max_depth:树的深度大小,random_state:随机数种子ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值