基本算法梳理(2)-random forest

本文探讨了随机森林算法产生的背景,即为了解决决策树过拟合问题。介绍了随机森林的生成方法,包括自助采样和特征随机选取等步骤,并讨论了其优缺点。此外,还详细解释了在Python的scikit-learn库中实现随机森林的关键参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

接上篇:
随机森林的思想
1 为什么会产生随机森林
解决决策树的过拟合问题。
2 随机森林的产生方法
给定一个有n个样本的训练集{X,Y},
for b=1,…,B:
1.从X中有放回的采样n个样本,组成集合{Xb,Yb};
2.在{Xb,Yb}上随机抽取n个特征训练决策树(或者回归树)
3.通过投票决定结果
3随机森林的优缺点:
优点:
随机森林几乎不需要输入准备。它们可以处理二进制特征,分类特征,数字特征而无需缩放。
随机森林执行隐式特征选择,并提供非常好的特征重要性指标。
随机森林训练非常快。
可以并行训练
缺点:训练出来的模型比较大,读取到内存较慢
对于有很多噪声的数据容易造成过拟合
3 sklearn中 关于random forest的相关参数
n_estimators:树木个数。衡量分裂质量的功能。支持的标准是基尼杂质的“gini”和信息增益的“熵”。注意:此参数是特定于树的。
max_depth:树的最大深度。如果为None,则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split样本
min_samples_split:内部节点所需的最小样本数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值