Bagging 与随机森林

本文介绍了集成学习中的Bagging方法及在此基础上发展起来的随机森林算法。详细解释了Bagging的自助采样过程及其带来的袋外数据概念,并阐述了随机森林如何通过引入随机属性选择进一步提升模型的泛化性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.Bagging

Bagging:并行式的集成学习
思想:自助采样(Bootstrap sampling):给定m个样本集,有放回的随机采样m次,得到含m个样本的采样集。基于每个采样集训练出一个基学习器,再将这些学习器进行结合。
分类:简单投票
回归:简单平均

bagging 的复杂度与基学习器的复杂度同阶。
对于一个样本,它在某一次含m个样本的训练集的随机采样中,每次被采集到的概率是1m\frac{1}{m}m1。不被采集到的概率为1m\frac{1}{m}m1。如果m次采样都没有被采集中的概率是(1−1m)m(1-\frac{1}{m})^m(1m1)m。当时m→+∞m \to +\inftym+,$ (1-\frac{1}{m})^m \to \frac{1}{e} =0.368$。也就是说,在bagging的每轮随机采样中,训练集中大约有36.8%的数据没有被采样集采集中。

对于这部分大约36.8%的没有被采样到的数据,称为袋外数据(Out Of Bag,OOB)。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力(作验证集)。

二.随机森林(Random forest)

RF 以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择
传统决策树:当前节点的属性集合(假设有d个属性)中选择一个最优属性
RF: 对基决策树的每一个节点,先从该节点的属性集合中随机选择一个包含k 个属性的子集,然后从这个子集中选择一个最优的属性用于划分。 推荐k=log2dk=log_2dk=log2d

优点

1.训练可以高度并行化,对于大数据时代的大样本训练速度有优势
2.相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。
3.泛化性能高。基学习器的多样性不仅来自样本扰动,还来自属性扰动,使得最终的泛化性能通过个体学习器间的差异度的增加而进一步提高。
4.在训练后,可以给出各个特征对于输出的重要性
5.对部分特征缺失不敏感。

缺点

1.相比于单棵决策树,RF可解释性弱
2. 在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值