bagging、boosting、Stacking(自助法、提升法、堆叠法)

本文介绍了集成学习的基本概念,强调了通过组合多个弱学习器来创建更强大、更稳健的模型。重点讨论了三种集成方法:Bagging(如随机森林)用于减少方差,Boosting(如Adaboost和Gradient Boosting)用于降低偏置,以及Stacking用于利用多个异质模型的预测。此外,还详细解释了Bagging中的Bootstrap采样和Out-of-Bag(OOB)数据,以及Boosting中的权重调整策略。

创建日期:2021.01.20
修改日期:2021.01.20

1. 集成学习

集成学习是一种机器学习范式。在集成学习训练多个模型(通常称为弱学习器)解决相同的问题,并将它们结合起来以获得更好的结果。

最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。

2. 基模型

弱学习器就是基模型。作者认为基模型更准确,因为基模型未必是效果不好的或者弱的,是在特定的业务环境下评价不是很好。

在大多数情况下,基本模型本身的性能并不是非常好,或是因为它们具有较高的偏置(例如,低自由度模型),或是因为他们的方差太大导致鲁棒性不强(例如,高自由度模型)。

很重要的一点是:我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。如果我们选择具有低偏置高方差的基础模型,我们应该使用一种倾向于减小方差的聚合方法;而如果我们选择具有低方差高偏置的基础模型,我们应该使用一种倾向于减小偏置的聚合方法。

3. 基模型同质性

集成学习中的基模型可以是同质的,也可以是不同质的。

  • 使用单一的基础学习算法,有以不同方式训练的同质弱学习器。
  • 使用不同的基础学习算法,些异质的弱学习器组合成异质集成模型。
4. 集成方法比较

降方差(bagging),减偏差(boosting),提升预测准确性(stacking)

  • bagging(Bootstrap aggregating自举汇聚法,自助法)

    • 该方法通常考虑的是同质弱学习器,相互独立地并行学习这些弱学习器,并按照某种确定性的平均过程将它们组合起来。
    • Bagging代表算法-RF(随机森林)。
    • 属于并行方法。
  • boosting(提升法)

    • 该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型),并按照某种确定性的策略将它们组合起来。
    • 提升法又分为自适应提升(adaboost )和梯度提升(gradient boosting)。
    • 属于串行方法。
  • stacking(堆叠法)

    • 该方法通常考虑的是异质弱学习器,并行地学习它们,并通过训练一个「元模型」将它们组合起来,根据不同弱模型的预测结果输出一个最终的预测结果。
    • 分阶段方法。
4. Bagging 自助法

给定一个训练集 D D D,样本个数为 m m m,Bagging算法从中均匀、有放回地选出 n n n个样本,形成子集 D i , i = 1 , 2 , . . . , t D_i, i=1,2, ..., t Di,i=

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值