机器学习系列之RandomForest/Adaboost

本文详细介绍了随机森林和Adaboost两种机器学习算法。随机森林通过集成多棵决策树形成强分类器,每棵树的训练样本和特征选择都是随机的。Adaboost则通过迭代训练弱分类器,根据错误率调整样本权重,最后组合成强分类器。文章还提到了用于解释随机森林中特征贡献的treeinterpreter包。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

RandomForest

每棵树生成规则:

随机森林包含两个随机:

Adaboost

迭代过程: 

加权结果:

参见网址:


RandomForest

随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器,这就是随机森林bagging的思想。

每棵树生成规则:

  1. 如果训练集大小为N,对于每棵树而言,随机且有放回地从训练集中的抽取N个训练样本(这种采样方式称为bootstrap sample方法),作为该树的训练集;每棵树的训练集都是不同的,而且里面包含重复的训练样本(理解这点很重要)。
  2. 如果每个样本的特征维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的;
  3. 每棵树都尽最大程度的生长,并且没有剪枝过程。

随机森林包含两个随机:

  1. 一个是随机有放回的抽样训练集
  2. 一个是随机地从M个特征中选取m个特征子集

很有意义的一个随机森林,查询子特征贡献的包:

随机森林中每棵树,对应着随机选取的子特征。而每个特征的作用和贡献,在scikit - learn中没有体现。所以有这样一个包,pip install tre

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Great1414

整理不易,谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值