随机森林

随机森林算法详解

最新推荐文章于 2024-11-10 17:25:51 发布

weixin_34075551

最新推荐文章于 2024-11-10 17:25:51 发布

阅读量82

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yttas/p/10256037.html

本文深入解析随机森林算法，一种基于多个决策树的集成学习方法。通过有放回的随机抽样和特征子集选择，避免过拟合，提高模型泛化能力。详细介绍了随机森林的构建过程，包括样本和属性的采样策略。

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。

直观上理解：每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果。原文：https://zhuanlan.zhihu.com/p/22097796

简述步鄹：

　　1. 假如有N个样本，则有放回的随机选择N个样本(每次随机选择一个样本，然后返回继续选择)。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。

　　2. 当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。

　　3. 决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。

　　4. 按照步骤1~3建立大量的决策树，这样就构成了随机森林了

采样：样本是用bootstrap采样（bootstrap是什么：https://blog.youkuaiyun.com/quiet_girl/article/details/79081673），数据和属性都是采样得到的，所以不会出现过拟合，所以不使用剪枝。

转载于:https://www.cnblogs.com/yttas/p/10256037.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。