14、集成学习：装袋法、随机森林与提升法详解

最新推荐文章于 2025-11-30 00:05:08 发布

flink9streamer

最新推荐文章于 2025-11-30 00:05:08 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门精讲文章标签：随机森林 AdaBoost 集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/flink9streamer/article/details/152446742

机器学习入门精讲专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

集成学习：装袋法、随机森林与提升法详解

1. 随机森林（Random Forests）

1.1 随机森林的基本原理

装袋法（Bagging）通过对多个模型的预测结果进行平均来降低方差。然而，其方差的降低程度受到各个集成成员之间相关性的限制。随机森林则是在装袋法的基础上，通过增加额外的随机约束，进一步降低集成成员之间的相关性，从而实现更大的方差降低。

具体来说，在训练分类或回归树时，随机森林在每次节点分裂时，并不考虑所有可能的输入变量，而是随机选择一个包含 $q \leq p$ 个输入的子集，并仅将这些变量作为可能的分裂变量。这种随机子集的选择是独立地为每个集成成员进行的，因此不同的树很可能使用不同的子集。

1.2 随机森林的算法步骤

以下是随机森林的主要算法步骤：
1. 从原始数据集中进行 $B$ 次有放回抽样，得到 $B$ 个自助数据集 $\hat{T}(b)$。
2. 对于每个自助数据集 $\hat{T}(b)$，训练一棵分类或回归树：
- 在每次节点分裂时，随机选择 $q$ 个输入变量作为可能的分裂变量。
- 根据这些变量进行节点分裂，构建决策树。
3. 对 $B$ 棵树的预测结果进行平均，得到最终的预测结果。

1.3 随机森林的优缺点

与装袋法相比，随机森林的优点在于能够降低集成成员之间的相关性，从而实现更大的方差降低。然而，随机森林也会增加每个单独树的方差，并且可能会增加偏差。但经验表明，相关性的降低通常是主导因素，因此平均预测方差通常会降低。

1.4 随机森林的参数选择

随机森林中的一

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。