bagging、boosting、Stacking（自助法、提升法、堆叠法）

最新推荐文章于 2025-08-21 16:55:13 发布

原创

最新推荐文章于 2025-08-21 16:55:13 发布 · 4.7k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了集成学习的基本概念，强调了通过组合多个弱学习器来创建更强大、更稳健的模型。重点讨论了三种集成方法：Bagging（如随机森林）用于减少方差，Boosting（如Adaboost和Gradient Boosting）用于降低偏置，以及Stacking用于利用多个异质模型的预测。此外，还详细解释了Bagging中的Bootstrap采样和Out-of-Bag（OOB）数据，以及Boosting中的权重调整策略。

创建日期：2021.01.20
修改日期：2021.01.20

文章目录

1. 集成学习

集成学习是一种机器学习范式。在集成学习训练多个模型（通常称为弱学习器）解决相同的问题，并将它们结合起来以获得更好的结果。

最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。

2. 基模型

弱学习器就是基模型。作者认为基模型更准确，因为基模型未必是效果不好的或者弱的，是在特定的业务环境下评价不是很好。

在大多数情况下，基本模型本身的性能并不是非常好，或是因为它们具有较高的偏置（例如，低自由度模型），或是因为他们的方差太大导致鲁棒性不强（例如，高自由度模型）。

很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。如果我们选择具有低偏置高方差的基础模型，我们应该使用一种倾向于减小方差的聚合方法；而如果我们选择具有低方差高偏置的基础模型，我们应该使用一种倾向于减小偏置的聚合方法。

3. 基模型同质性

集成学习中的基模型可以是同质的，也可以是不同质的。

使用单一的基础学习算法，有以不同方式训练的同质弱学习器。
使用不同的基础学习算法，些异质的弱学习器组合成异质集成模型。

4. 集成方法比较

降方差(bagging)，减偏差(boosting)，提升预测准确性(stacking)

bagging（Bootstrap aggregating自举汇聚法，自助法）
- 该方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。
- Bagging代表算法-RF(随机森林)。
- 属于并行方法。
boosting（提升法）
- 该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器（每个基础模型都依赖于前面的模型），并按照某种确定性的策略将它们组合起来。
- 提升法又分为自适应提升（adaboost ）和梯度提升（gradient boosting）。
- 属于串行方法。
stacking（堆叠法）
- 该方法通常考虑的是异质弱学习器，并行地学习它们，并通过训练一个「元模型」将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。
- 分阶段方法。

4. Bagging 自助法

给定一个训练集 $D$ ，样本个数为 $m$ ，Bagging算法从中均匀、有放回地选出 $n$ 个样本，形成子集 $D_i, i=1,2, ..., t$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。