随机森林（RF）

最新推荐文章于 2025-03-13 21:31:01 发布

原创最新推荐文章于 2025-03-13 21:31:01 发布 · 433 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

统计机器学习专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨了Bagging集成学习的基本流程与优点，以及其扩展变体——随机森林的特性与优势。Bagging通过自助采样和结合多个基学习器来提升泛化性能，而随机森林在此基础上增加了属性扰动，进一步提高了模型的多样性和泛化能力。

Bagging

Bagging基本流程：

采样出 $T$ 个包含 $m$ 个训练样本的采样集
基于每个采样集合训练出一个基学习器
将这些基学习器结合

对于分类任务通常使用简单投票法；回归任务使用简单平均法
优点：

训练一个Bagging集成与直接使用基学习器算法训练一个学习器的复杂度同阶，说明Bagging是一个高效的集成学习算法
与标准的AdaBoost只适用于二分类任务不同，Bagging能不经修改地用于多任务、回归任务
自助采样过程只使用了约63.2%的样本，剩下的36.8%的样本可以用作验证集

随机森林

随机森林是Bagging的一个扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。
具体：
传统决策树在选择划分属性时是在当前结点的属性集合（假设有 $d$ 个属性）中选择一个最优属性，而在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含 $k$ 个属性的子集，然后再从这个子集中选择一个最优属性用于划分。
这里的参数 $k$ 控制了随机性的引入程度：若令 $k = d$ ，则基决策树的构建与传统决策树相同；若令 $k = 1$ ，则随机选择一个属性用于划分；一般情况，推荐值 $k=log_2d$
优点：

随机森林简单、容易实现、计算开销小
随机森林中基学习器的多样性不仅来自样本扰动，还来自属性扰动，这使得最终集成的泛化性能提升

参考：
机器学习（西瓜书）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。