随机森林（Random forest,RF）的生成方法以及优缺点

最新推荐文章于 2025-11-09 14:15:50 发布

原创

最新推荐文章于 2025-11-09 14:15:50 发布 · 3.9w 阅读

92 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #随机森林 #Random Forest #机器学习 #数据挖掘

随机森林（Random Forest）是属于集成学习的一种组合分类算法（确切说是属于bagging），集成学习的核心思想就是将若干个弱（基）分类器组合起来，得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成，就可以使用随机森林算法。

随机森林利用自主抽样法（bootstrap）从原数据集中有放回地抽取多个样本，对抽取的样本先用弱分类器—决策树进行训练，然后把这些决策树组合在一起，通过投票得出最终的分类或预测结果。

随机森林的生成方法

从样本集中通过重采样的方式产生n个样本。
建设样本特征数目为a，对n个样本选择a中的k个特征，用建立决策树的方式获得最佳分割点。
重复m次，产生m棵决策树。
多数投票机制进行预测。

随机森林中的随机是什么意思？

随机森林中的随机性主要体现在两个方面：

随机采样：随机森林在计算每棵树时，从全部训练样本（样本数为n）中选取一个可能有重复的、大小同样为n的数据集进行训练（即booststrap采样）。
特征选取的随机性：在每个节点随机选取所有特征的一个子集

最低0.47元/天解锁文章

13 条评论

zhuanqiehui9842 2020.05.14
写的挺全了，也比较易懂。

weixin_40547283 2020.04.24
博主你好，想请问一下，优点的第六条，为什么随机森林对不平衡数据可以平衡误差呢？是怎样平衡的呢？
- boyan_RF回复weixin_40547283 2020.05.02
  [reply]weixin_40547283[/reply]我个人以为随机森林算法的损失函数可以设置不同的权重（其实集成算法差不多都有这个特点）理论上合理的训练基分类器能够改善数据集分类不均带来的影响，但是实际中对于过度分类不均的数据集并不能带来足够好的效果，这不是说算法不好，而是数据集分类严重不均匀加之数据量还小的话，神仙都训不好模型。一般在分类问题中当某一类的数据量是另外一类的100倍量级（实践中还要从数据量级来看）的话，很难训练好模型。

zhangpp12 2019.11.15
可以推荐一些随机森林过拟合的文章吗？自己搜索没找到，谢谢

肯德基套餐 2019.03.04
博主您好，请问下袋外误差提供的无偏估计在建立森林时到底起到了什么样的作用，是限制了树的棵数吗？
- 肯德基套餐回复boyan_RF 2019.03.04
  [reply]zhongjunlang[/reply] 这个我知道，最终会根据这个输出重要特征，但是训练的时候特征是随机选择的，也不会对重要特征有特殊照顾，在建树的过程中也是按照cart决策树建树的过程，并没有体现出特征对建树有啥影响啊
- boyan_RF回复肯德基套餐 2019.03.04
  [reply]dpengwang[/reply] 从网上截取一段：计算某个特征XX的重要性时，具体步骤如下： 1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1errOOB1。所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。这已经经过证明是无偏估计的，所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。 2）随机对袋外数据OOB所有样本的特征XX加入噪声干扰（可以随机改变样本在特征XX处的值），再次计算袋外数据误差，记为errOOB2errOOB2。 3）假设森林中有NN棵树，则特征XX的重要性=∑(errOOB2−errOOB1）/N∑(errOOB2−errOOB1）/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2errOOB2上升），说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。 --------------------- 作者：XindiOntheWay 来源：优快云原文：https://blog.youkuaiyun.com/XindiOntheWay/article/details/82077651 版权声明：本文为博主原创文章，转载请附上博文链接！
- 肯德基套餐回复boyan_RF 2019.03.04
  [reply]zhongjunlang[/reply] 袋外误差反映特征重要程度是什么意思
- boyan_RF回复肯德基套餐 2019.03.04
  [reply]dpengwang[/reply] 不是相当于最后已建模型的误差，而是相当于在模型的建立过程中的误差。在每一次树的构建中这个袋外误差都会被优化，所以真要说袋外误差改变了什么，那我认为袋外误差改变的是随机森林的建立过程。（这里说改变不太好，应该说影响）
- boyan_RF回复肯德基套餐 2019.03.04
  [reply]dpengwang[/reply] 袋外误差的无偏估计就相当于模型的误差，因为在生成过程中，可以把数据集中的任何一个样本作为测试集，袋外误差可以在一定程度上就充当了系统的误差。袋外误差反映的是特征重要程度，这也就是为什么随机森林能够反映出特征的重要程度，它在模型的建立过程中起作用，让特征的数目达到最优。
- 肯德基套餐回复boyan_RF 2019.03.04
  [reply]zhongjunlang[/reply] 那袋外误差的无偏估计到底起了什么样的角色呢，改变了什么东西
- boyan_RF回复肯德基套餐 2019.03.04
  [reply]dpengwang[/reply] 当然有了特征的重要性可以用来选择最优树的棵树，但是说限制，其实我认为并不能算作是一种限制，我认为这是一种类似优化。
- boyan_RF回复肯德基套餐 2019.03.04
  [reply]dpengwang[/reply] 是在一定程度上说明特征重要性的。