21、集成学习方法：Bagging与梯度提升算法详解

最新推荐文章于 2025-12-01 19:00:00 发布

transformer2023

最新推荐文章于 2025-12-01 19:00:00 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握机器学习双引擎文章标签： Bagging 梯度提升集成学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/transformer2023/article/details/152467548

掌握机器学习双引擎专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

集成学习方法：Bagging与梯度提升算法详解

1. 引言

在机器学习领域，集成学习方法是一种强大的技术，它通过组合多个模型来提高预测性能。本文将深入探讨两种常见的集成学习方法：Bagging和梯度提升（Gradient Boosting），并分析它们在不同数据集上的表现。

2. Bagging算法

Bagging（Bootstrap Aggregating）是一种通过对原始训练数据进行随机抽样来构建多个模型的集成学习方法。下面我们将详细探讨Bagging算法在不同场景下的表现。

2.1 Bagging在合成数据上的表现

在合成数据实验中，我们发现随着树的数量增加，均方误差（MSE）在大约0.025左右趋于平稳，这并不是一个很好的结果。理论上，最佳的MSE应该是添加噪声的标准差的平方，即0.01。而之前训练的单个二叉树的MSE接近0.01，为什么更复杂的Bagging算法表现不佳呢？

通过分析图6 - 12，我们可以看到单个树的预测很容易识别，因为只有一个步骤。而10树和20树的预测是多个略有不同的树的叠加，有一系列更细的步骤，但这些步骤都集中在图的中心附近，这导致集成模型缺乏多样性。

这里存在两种类型的误差：偏差（Bias）和方差（Variance）。当使用深度为1的树拟合合成数据时，会出现偏差误差，因为所有的分割点都选择在数据的中心附近，模型在数据边缘的准确性较差。Bagging可以减少模型之间的方差，但对于深度为1的树，它会产生无法平均的偏差误差。解决这个问题的方法是使用更深的树。

图6 - 13显示了深度为5的树的MSE与树的数量的曲线，深度为5的树的MSE略小于0

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。