21、集成学习方法:Bagging与梯度提升算法详解

集成学习方法:Bagging与梯度提升算法详解

1. 引言

在机器学习领域,集成学习方法是一种强大的技术,它通过组合多个模型来提高预测性能。本文将深入探讨两种常见的集成学习方法:Bagging和梯度提升(Gradient Boosting),并分析它们在不同数据集上的表现。

2. Bagging算法

Bagging(Bootstrap Aggregating)是一种通过对原始训练数据进行随机抽样来构建多个模型的集成学习方法。下面我们将详细探讨Bagging算法在不同场景下的表现。

2.1 Bagging在合成数据上的表现

在合成数据实验中,我们发现随着树的数量增加,均方误差(MSE)在大约0.025左右趋于平稳,这并不是一个很好的结果。理论上,最佳的MSE应该是添加噪声的标准差的平方,即0.01。而之前训练的单个二叉树的MSE接近0.01,为什么更复杂的Bagging算法表现不佳呢?

通过分析图6 - 12,我们可以看到单个树的预测很容易识别,因为只有一个步骤。而10树和20树的预测是多个略有不同的树的叠加,有一系列更细的步骤,但这些步骤都集中在图的中心附近,这导致集成模型缺乏多样性。

这里存在两种类型的误差:偏差(Bias)和方差(Variance)。当使用深度为1的树拟合合成数据时,会出现偏差误差,因为所有的分割点都选择在数据的中心附近,模型在数据边缘的准确性较差。Bagging可以减少模型之间的方差,但对于深度为1的树,它会产生无法平均的偏差误差。解决这个问题的方法是使用更深的树。

图6 - 13显示了深度为5的树的MSE与树的数量的曲线,深度为5的树的MSE略小于0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值