随机森林学习笔记

最新推荐文章于 2024-08-23 20:42:14 发布

菜菜周

最新推荐文章于 2024-08-23 20:42:14 发布

阅读量392

点赞数

文章标签：机器学习

本文介绍了随机森林算法，它由众多无关联的决策树组成，通过随机选择训练样本和分类属性避免过拟合。还阐述了构建随机森林的具体步骤，包括有放回选样本、随机选属性等。此外，列举了该算法在多数据集表现好、能处理高维数据等诸多优点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成**，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

随机森林的随机性体现在每颗树的训练样本是随机选择的，树中每个节点的分类属性也是随机选择的。有了这2个随机的保证，随机森林就不会产生过拟合的现象了。

具体步骤如下：
1. 假如有N个样本，则有放回的随机选择N个样本(每次随机选择一个样本，然后返回继续选择)。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。

2. 当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m << M。然后从这m个属性中采用某种策略（比如说信息增益）来选择1个属性作为该节点的分裂属性。

3. 决策树形成过程中每个节点都要按照步骤2来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了，这一点保证了树的高度肯定是<=M的）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。

4. 按照步骤1~3建立大量的决策树，这样就构成了随机森林了。

优点如下：

1、在当前的很多数据集上，相对其他算法有着很大的优势，表现良好

2、它能够处理很高维度（feature很多）的数据，并且不用做特征选择

    PS：特征子集是随机选择的

3、在训练完后，它能够给出哪些feature比较重要

    PS：http://blog.youkuaiyun.com/keepreder/article/details/47277517

4、在创建随机森林的时候，对generlization error使用的是无偏估计，模型泛化能力强

5、训练速度快，容易做成并行化方法

   PS：训练时树与树之间是相互独立的

6、在训练过程中，能够检测到feature间的互相影响

7、实现比较简单

8、对于不平衡的数据集来说，它可以平衡误差。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。