Boost算法（GDBT,AdaBoost，XGBoost）原理

最新推荐文章于 2025-07-01 18:34:01 发布

akenseren

最新推荐文章于 2025-07-01 18:34:01 发布

阅读量1.6k

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

27 篇文章

订阅专栏

本文详细阐述了梯度提升算法的基本原理，通过逐步优化弱预测模型来逼近损失函数的最小值，并介绍了三种典型应用：梯度下降提升树（GDBT）、自适应提升（AdaBoost）及XGBoost。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：点击打开链接

简单地来说，提升Boost就是指每一步都产生一个弱预测模型，然后加权累加到总模型中，然后每一步弱预测模型生成的的依据都是损失函数的负梯度方向，这样若干步以后就可以达到逼近损失函数局部最小值的目标。

首先Boost肯定是一个加法模型，它是由若干个基函数及其权值乘积之和的累加，即

其中b是基函数，beta是基函数的系数，这就是我们最终分类器的样子，现在的目标就是想办法使损失函数的期望取最小值，也就是

一下子对这M个分类器同时实行优化，显然不太现实，这问题也太复杂了，所以人们想了一个略微折中的办法，因为是加法模型，所以我每一步只对其中一个基函数及其系数进行求解，这样逐步逼近损失函数的最小值，也就是说

那聪明的你一定想到了，要使损失函数最小，那就得使新加的这一项刚好等于损失函数的负梯度，这样不就一步一步使得损失函数最快下降了吗？没错，就是这样，那么就有了

Lambda是我随便写的一个参数，可以和beta合并表示步长，那么对于这个基函数而言，其实它就是关于x和这个函数梯度的一个拟合，然后步长的选择可以根据线性搜索法，即寻找在这个梯度上下降到最小值的那个步长，这样可以尽快逼近损失函数的最小值。

到这里，梯度提升的原理其实就讲完了，接下来我们就讲几个实际情况中的特例，包括梯度下降提升树（GDBT），自适应提升（AdaBoost），以及Kaggle竞赛的王者XGBoost。

第一个，GDBT。

对于这个，一旦对上面梯度提升的想法理解了那就很容易解释了。首先既然是树，那么它的基函数肯定就是决策树啦，而损失函数则是根据我们具体的问题去分析，但方法都一样，最终都走上了梯度下降的老路，比如说进行到第m步的时候，首先计算残差

有了残差之后，我们再用（xi,rim）去拟合第m个基函数，假设这棵树把输入空间划分成j个空间R1m，R2m……，Rjm，假设它在每个空间上的输出为bjm，这样的话，第m棵树可以表示如下：

下一步，对树的每个区域分别用线性搜索的方式寻找最佳步长，这个步长可以和上面的区域预测值bjm进行合并，最后就得到了第m步的目标函数

当然了，对于GDBT比较容易出现过拟合的情况，所以有必要增加一点正则项，比如叶节点的数目或叶节点预测值score的平方和，进而限制模型复杂度的过度提升，这里在下面的实践中的参数设置我们可以继续讨论。

第二个，AdaBoost。

首先要说的是是AdaBoost是用于分类的。然后套路想必你已经非常了解了，前面几步完全和上面的GDBT一样，区别在于AdaBoost给出了损失函数为指数损失函数，即

很好理解，预测正确了yf(x)为正值，损失函数值就小，预测错误yf(x)为正值，损失函数值较大，然后我们来看一下第m步的损失函数

现在就是分别求alpha和G（x）使得损失函数最小值，按照之前的想法，直接算伪残差然后用G（x）拟合，不过这边我们先不着急。指数项中，yi与fm-1的乘积是不依赖于alpha和G（x）的，所以可以提出来不用考虑，对于任意alpha>0，在exp(-yi*fm-1)权值分布下，要exp(-yi*alpha*G(x))取最小值，也就是要G（x）对加权y预测的正确率最高。接下来，求alpha很愉快，直接求导位0，懒癌发作，公式推导过程就不打了，最后的结果如下：