Bagging决策树：Random Forests

原创已于 2023-06-01 10:31:39 修改 · 398 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#决策树 #随机森林 #机器学习 #算法 #人工智能

于 2017-01-18 11:19:00 首次发布

人工智能专栏收录该内容

51 篇文章 ¥29.90 ¥99.00

订阅专栏

随机森林(Random Forests, RF)是一种基于决策树的集成学习方法，由Breiman提出。它通过Data Bagging和Feature Bagging减少基分类器的相关性，提高泛化能力。在Kaggle竞赛中，RF因其高准确率和抗过拟合能力而广泛应用。RF算法包括从样本集中有放回取样（Data Bagging）和特征集合取样（Feature Bagging），特征取样的数量通常建议为特征总数的对数或平方根。scikit-learn库提供了RandomForestClassifier实现，允许用于分类和回归任务。" 92335731,8257193,配置HP ML110/120 G7阵列卡及安装Server 2003指南,"['操作系统', '服务器', '硬件配置', 'Windows Server']

1. 前言

随机森林 Random Forests (RF) 是由Breiman [1]提出的一类基于决策树CART的集成学习(ensemble learning)。论文 [5] 在121数据集上比较了179个分类器，效果最好的是RF，准确率要优于基于高斯核SVM和多项式LR。RF自适应非线性数据，不易过拟合，所以在Kaggle竞赛大放异彩，大多数的wining solution都用到了RF。

集成学习主要分为两大流派：Bagging与Boosting，两者在训练基分类器的思路截然不同：

Bagging通过bootstrap sampling(有放回地取样)方式训练基分类器，每一个基分类器互不影响，但并不相互独立；
Boosting则是通过重赋权(re-weighting)法迭代地训练基分类器，当前的样本权值的分布依赖于上一轮基分类器的分类结果；对于无法接受带权样本的基分类算法，则采用“重采样法”(re-sampling)来处理，即分错的样本在下一轮学习出现的次数会增加。

RF属于集成学习中的Bagging流派。若Bagging算法直接采用CART做基分类器，存在着一个问题：如果某些feature具有很强的预测性，

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。