Bagging和Boosting

最新推荐文章于 2024-12-07 14:14:45 发布

原创最新推荐文章于 2024-12-07 14:14:45 发布 · 523 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习同时被 2 个专栏收录

32 篇文章

订阅专栏

5 篇文章

订阅专栏

本文深入探讨了Bagging和Boosting两种集成学习方法。Bagging通过自助采样法创建多个训练集，训练多个基学习器，使用投票或平均法进行预测。Boosting通过调整样本权重，使后续学习器关注前一学习器错误分类的样本，最终加权组合多个弱学习器。文章对比了两者在样本选择、权重分配、预测函数权重及并行计算能力上的差异。

Bagging:

Bagging基于自助采样法。给定包含m个样本的数据集，先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中。这样，经过m次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本再采样集里多次出现，有的则从未出现。

采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基本学习器进行结合。

Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。

与标准AdaBoost只适用于二分类任务不同，Bagging能不经修改地用于多分类，回归等任务。

自助采样过程还给Bagging带来了另一个优点：由于每个基学习器只使用了初始训练集约63.2%的样本，剩下约36.8%的样本可用作验证集来对泛化性能进行“包外估计”(out-of-bag estimate)。

Boosting:

训练集中一共有n个点，我们可以为里面的每一个点赋上一个权重Wi(0 <= i < n)，表示这个点的重要程度。通过依次训练模型的过程，我们对点的权重进行修正，如果分类正确了，权重降低，如果分类错了，则权重提高。初始的时候，权重都是一样的。越向后训练，模型就越会在意那些容易分错（权重高）的点。当全部的程序执行完后，会得到M个模型，通过加权的方式组合成一个最终的模型YM(x)。

Bagging 和Boosting的对比：

1)样本选择上：Bagging采用的是Bootstrap随机有放回抽样；而Boosting每一轮的训练集是不变的，改变的只是每一个样本的权重。

2)样本权重：Bagging使用的是均匀取样，每个样本权重相等；Boosting根据错误率调整样本权重，错误率越大的样本权重越大。

3)预测函数：Bagging所有的预测函数的权重相等；Boosting中误差越小的预测函数其权重越大。

4)并行计算：Bagging各个预测函数可以并行生成；Boosting个体学习器间存在强依赖关系，各个预测函数必须按顺序迭代生成。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。