Preliminary understanding of bagging and boosting

最新推荐文章于 2024-04-03 08:00:00 发布

记忆星空

最新推荐文章于 2024-04-03 08:00:00 发布

阅读量562

点赞数

分类专栏：机器学习与数据挖掘决策树分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012303532/article/details/45131687

版权

机器学习与数据挖掘同时被 3 个专栏收录

24 篇文章

订阅专栏

6 篇文章

订阅专栏

3 篇文章

订阅专栏

本文介绍了统计学习理论中的Bagging和Boosting两种重要概念。Bagging通过多次抽样并结合多个分类器进行投票来提高预测准确性。而Boosting则通过调整分类器权重的方式提升效果。文中还详细解释了随机森林算法的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

boosting and bagging这两个概念在统计学习理论中还是挺重要的，两者都采取训练多次的做法，但是还是有一些区别，先说比较简单的bagging。
bagging 也称bootstrap aggregation，它其实就是抽样了很多次，然后每次对抽样训练出一个分类器，那么最后的分类结果是基于这些所有分类器投票的结果。
bagging的具体做法：
1 从样本集中用Bootstrap(有放回)采样选出n个样本。
2对这n个样本建立分类器。
3重复以上两步m次，得到m个分类器。

4给定一个需要分类的数据，分类结果是m个分类器的分类结果票数最多的那个类别。

说到bagging,这里在插入一个概念，random forest，随机森林说白了就是很多课决策树，但是这些决策树建立经过两次的随机：1 样本的随机；2属性的随机。
random forest 具体做法：
1 从样本集中用Bootstrap(有放回)采样选出n个样本
2对于每个分类器，随机选择k个属性对其进行训练。
3重复以上两步m次，得到m个分类器

4给定一个需要分类的数据，分类结果是m个分类器的分类结果票数最多的那个类别。

接下来的就是boosting思想

同样是训练多次，bagging每次训练的m分类器权重都是相同的，但是boosting不是，它每次会把分类效果差的权重增加，效果好的权重减小。举一个AdaBoost算法的例子，它的做法如下：

其中alpha是每个分类器的权重，可以看到这个算法每次会根据每个分类器的错误率来调整其对应的权重，错误率越高，权重越高，另外最后的分类结果是所有加权弱分类器的和。

一般来说，boosting的效果比bagging要好，但是boosting需要更多的时间来训练。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。