【集成学习】8 Bagging 的原理和案例分析

最新推荐文章于 2025-04-12 15:50:44 发布

J_caicaicai

最新推荐文章于 2025-04-12 15:50:44 发布

阅读量286

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/apple_50678962/article/details/115801314

版权

Bagging的思路

与voting不同，Bagging不仅集成模型最后的预测结果，同时采用一定策略来影响基模型训练，保证基模型可以服从一定的假设。

哇偶

bagging的原理分析

bagging的核心 --> 来自于自助采样(bootstrap)这一概念
aka 有放回的从dataset进行采样
aka 同样的一个样本可能被多次进行采样

自助采样例子：
我们希望估计全国所有人口年龄的平均值
1、在全国所有人口中随机抽取不同的集合（集合可能存在交集
2、计算每个集合的平均值
3、avg(所有聚合平均值) == 估计值

Bagging的基本流程：

随机取出一个样本放入采样集合中，再把这个样本放回初识dataset
重复K次
最终获得一个大小为k的样本集合
采样出T个含k个样本的采样集合
然后基于每个采样集合，训练初一个基学习器
再将这些基学习器进行结合

how

回归 — 通过预测取平均值
分类 — 通过对预测取多数票预测

Bagging 为什么有效

因为每个模型都是在略微不同的training data上拟合完成的，这又使得每个基模型之间存在略微的差异，使每个基模型拥有略微不同的训练能力。

Bagging同样是一种降低方差的技术
因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更加明显。
在实际的使用中，加入列采样的Bagging技术对高维小样本往往又神奇的效果。

bagging的案例分析

sklearn通过两种Bagging方法

BaggingRegressor
BaggingClassifier

两种方法的默认基模型是树模型

决策树：
树的每个非叶子节点：对样本在一个特征上的判断
节点下方的分支：对样本的划分

决策树的建立过程：
一个对数据不断划分的过程，每次划分中，
1、首先要选择用于划分的特征
2、之后要确定划分的方案（类别/阈值）
我们希望通过划分，决策树的分支节点所包含的样本“纯度“尽可能地高

节点划分过程中所用的指标：

信息增益
- 衡量划分前后信息不确定性程度的减小
- 信息不确定程度一般使用 信息熵 来度量
- 信息熵公式 $H(Y)=−∑p_ilogp_i$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。