xgboost原理

最新推荐文章于 2025-06-11 15:59:39 发布

notHeadache

最新推荐文章于 2025-06-11 15:59:39 发布

阅读量626

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法文章标签： xgboost 机器学习

本文链接：https://blog.youkuaiyun.com/notHeadache/article/details/83092885

机器学习算法专栏收录该内容

7 篇文章

订阅专栏

本文深入解析XGBoost的工作原理，包括模型结构、目标函数、决策树复杂度及梯度提升算法。阐述如何通过泰勒展开优化目标函数，确定最佳决策树结构与叶子节点预测值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在网上看了xgboost的介绍，很多博客一开始并没有看的很明白，于是我按照自己的理解写一下xgboost的原理。

主要参考了：
https://xgboost.readthedocs.io/en/latest/tutorials/model.html （英文详细教程）
https://www.zhihu.com/question/41354392/answer/98658997 （很有用的PPT，出自wepon大神）
https://www.jianshu.com/p/7e0e2d66b3d4 （实战xgboost）

1. Xgboost的模型

xgboost的模型为：
$\hat{y_{i}}=\phi \left ( x_{i} \right )=\sum_{k=1}^{K}f_{k}\left ( x_{i} \right ),f_{k}\epsilon F,$
这是个加法模型，由k个弱分类器一起来决定输入 $x_{i}$ 的输出的结果 $y_{i}$ ，其中每一个弱分类器 $f_{i}\left ( x \right )$ 是一颗决策树。这个决策树 $f_{i}\left ( x \right )$ 的每一个叶子节点都对应一个分数，每个样本 $x_{i}$ 经过这颗决策树 $f_{i}\left ( x \right )$ 的规则分类之后都落在一个叶子节点上，得到一个分数，如下图所示：（这里一共5个样本，每个样本最后都会分到叶子节点，获得对应的分数）
在这里插入图片描述
这颗决策树可以由以下模型来表示：
$f\left ( x \right )=w_{q\left ( x \right )}\left ( q:\mathbb{R}^{m}\rightarrow T,w\in \mathbb{R}^{T} \right )$
其中 $q (x)$ 表示表示将样本 $x$ 分到了某个叶子节点 $i$ 上， $w$ 则是叶子节点 $i$ 对应的分数 $w_{i}$ ，如上图红色和蓝色的标记所示，所以 $w_{q\left ( x \right )}$ 表示回归树对样本 $x$ 的预测值。

2. 目标函数

xgboost的目标函数为：
$Obj=\sum_{i}^{n} l(\hat{y}_{i},y_{i})+\sum_{k}^{K}\Omega (f_{k})$
一共有n个训练样本，K颗树。并且在目标函数中，加入了正则化，对每棵回归树的复杂度进行了惩罚 $\sum_{k}^{K}\Omega (f_{k})$ ，使得学习出来的模型更加不容易过拟合。

因为xgboost的模型是个加法模型，在初始化（第0次迭代）的时候呢，模型是：
$\hat{y}_{i}^{(0)}=0$
第1次迭代：
$\hat{y}_{i}^{(1)}=f_{1}(x_{i})=\hat{y}_{i}^{(0)}+f_{1}(x_{i})$
第2次迭代：
$\hat{y}_{i}^{(2)}=f_{1}(x_{i})+f_{2}(x_{i})=\hat{y}_{i}^{(1)}+f_{2}(x_{i})$
第t次迭代：
$\hat{y}_{i}^{(t)}=\sum_{k=1}^{t}f_{k}\left ( x_{i} \right )=\hat{y}_{i}^{(t-1)}+f_{t}(x_{i})$
替换掉目标函数中的 $\hat{y}_{i}^{(t)}$ ，即在第t次迭代的时候的目标函数，我们通过这个目标函数学习 $f_{t}(x_{i})$ ：
$Obj=\sum_{i}^{n} l(y_{i},\hat{y}_{i}^{(t-1)}+f_{t}(x_{i}))+\Omega (f_{k})$
在上式中， $y_{i}$ 是训练数据的标签，已知的； $\hat{y}_{i}^{(t-1)}$ 在上一步迭代t-1中也已经求得，只需要学习 $f_{t}(x_{i})$ 。因为只需要学习 $f_{t}(x_{i})$ ，所以 $\sum_{k}^{K}\Omega (f_{k})$ 被 $\Omega (f_{k})$ 替换了。

下面到了xgboost的一个关键步骤，将目标函数在 $\hat{y}_{i}^{(t-1)}$ 进行二阶泰勒展开：

复习泰勒公式展开： $f(x+\Delta x)\simeq f(x)+f^{'}(x)\Delta x+\frac{1}{2}f^{''}(x)\Delta x^{2}$

令目标函数 $O b j$ 中 $\hat{y}_{i}^{(t)}$ 为 $x$ ， $f_{t}(x_{i})$ 为 $\Delta x$ ，则二阶泰勒展开之后目标函数变为：
$Obj\simeq \sum_{i}^{n} [l(y_{i},\hat{y}_{i}^{(t-1)})+g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^{2}(x_{i})]+\Omega (f_{k})$

$g_{i}$ 是 $l(y_{i},\hat{y}_{i}^{(t-1)})$ 的一阶倒数： $g_{i}=\partial _{\hat{y}^{(t-1)}}l(y_{i},\hat{y}^{t-1})$
$h_{i}$ 是 $l(y_{i},\hat{y}_{i}^{(t-1)})$ 的二阶倒数： $h_{i}=\partial_{\hat{y}^{(t-1)}}^{2}l(y_{i},\hat{y}^{t-1})$

去掉公式中的常数项：
$Obj\simeq \sum_{i}^{n} [g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^{2}(x_{i})]+\Omega (f_{k})$

3. 决策树的复杂度

在第1节的时候介绍过，决策树的模型是 $f\left ( x \right )=w_{q\left ( x \right )}\left ( q:\mathbb{R}^{m}\rightarrow T,w\in \mathbb{R}^{T} \right )$ ，xgboost定义决策树的复杂度公式 $\Omega (f_{k})$ 为：
$\Omega (f_{k})=\gamma T+\frac{1}{2}\lambda \left \| w \right \|^{2}$
其中：

$T$ 为决策树的叶子节点的个数
$\left \| w \right \|^{2}$ 为叶子节点得分L2正则化项，针对每个叶结点的得分增加L2平滑，目的也是为了避免过拟合

4. 再回到目标函数

将 $f\left ( x \right )=w_{q\left ( x \right )}$ 和 $\Omega (f_{k})$ 代入目标函数：
$Obj\simeq \sum_{i}^{n} [g_{i}w_{q(x_{i})}+\frac{1}{2}h_{i}w_{q(x_{i})}^{2}]+\gamma T+\frac{1}{2}\lambda \sum_{j=1}^{T}w_{j}^{2}$
公式中 $T$ 是指决策树的 $T$ 个叶子节点。

定义每个叶子节点 $j$ 上的样本集合为： $I_{j}=\left \{ i|q(x_{i}=j) \right \}$
则目标函数可以写成按叶子节点累加的形式：
$Obj=\sum_{j=1}^{T}\left [ (\sum _{i\epsilon I_{j}}g_{j})w_{j}+\frac{1}{2}(\sum _{i\epsilon I_{j}}h_{i}+\lambda )w_{j}^{2} \right ]+\gamma T =\sum_{j=1}^{T}\left [ G_{j}w_{j}+\frac{1}{2}(H_{j}+\lambda )w_{j}^{2} \right ]+\gamma T$

$G_{j}=\sum _{i\epsilon I_{j}}g_{j}$ 对于落入决策树第 $i$ 个叶子节点的样本，计算它们的 $g_{i}=\partial _{\hat{y}^{(t-1)}}l(y_{i},\hat{y}^{t-1})$ 并累加
$H_{j}=\sum _{i\epsilon I_{j}}h_{i}$ 对于落入决策树第 $i$ 个叶子节点的样本，计算它们的 $h_{i}=\partial_{\hat{y}^{(t-1)}}^{2}l(y_{i},\hat{y}^{t-1})$ 并累加

5. 求解第t次迭代的决策树 $f_{t}(x_{i})$

有了上述的目标函数之后，我们是怎么得出第t次迭代的决策树 $f_{t}(x_{i})$ 的呢？
我们先来看看 $f_{t}(x_{i})$ 都有哪些是需要我们求的：

树的结构： $q (x)$
叶子节点对于的预测分数： $w$

5.1 叶子节点对于的预测分数： $w$

我们先来看看 $w$ 是如何确定的。
假设树的的结构 $q (x)$ 确定了，为了使得目标函数最小，可以令目标函数为0，解得每个叶子节点的最优预测分数为：
$w_{j}^{*}=-\frac{G_{j}}{H_{j}+\lambda }$
代入目标函数，得到最小的损失为：
$\tilde{L}^{*}=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_{j}^{2}}{H_{j}+\lambda }+\gamma T$

5.2 树的结构 $q (x)$

5.1是假设树的结构确定了求 $w$ ，但是现在树的结构怎么求呢？
xgboost使用贪心算，每次分裂一个节点，计算分裂前后的增益，选择增益最大的。
那么这个增益怎么算？我们再来看看上面求出的最小的损失 $\tilde{L}^{*}=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_{j}^{2}}{H_{j}+\lambda }+\gamma T$ ，其中有一项是 $\frac{G_{j}^{2}}{H_{j}+\lambda }$ ，这一项的值越大，最小的损失 $\tilde{L}^{*}$ 就越小，因为这一项的符号是负号。
于是，如果在某个叶子节点处进行分裂，将这个叶子节点变成左右子树，样本落到左子树，上述的一项公式的值记为 $\frac{G_{L}^{2}}{H_{L}+\lambda }$ ，右子树的值记为 $\frac{G_{R}^{2}}{H_{R}+\lambda }$ ，原未分裂的叶子节点的值记为 $\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda }$ ，所以分裂前后的增益定义为：
$Gain=\frac{G_{L}^{2}}{H_{L}+\lambda }+\frac{G_{R}^{2}}{H_{R}+\lambda }-\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda }-\gamma$
增益 $G a i n$ 越大，说明在这个叶子节点进行分裂，损失函数会越小。所以在一开始的时候循环所有的特征的所有的值，选取 $G a i n$ 最大的节点进行分裂，然后再对左子树右子树分别进行分裂。大概的思想是：

Gain=0
for i=1 to 所有的特征
    for j=1 to 第i个特征的所有的值
        计算Gain，保存最大的Gain的值的i和j

具体的精确算法：
在这里插入图片描述
遍历所有特征的所有可能的分割点，计算gain值，选取值最大的（feature，value）去分割。此外，xgboost算法设计对特征进行了排序，分位点划分等细节。
通过此方法生成每一轮迭代新生成的树的结构 $q (x)$

以上就是xgboost的预测模型和实现的原理，是我个人的理解，里面还有各种细节还需要去查看xgboost的原文和别的博客的介绍。

xgboost原理

1. Xgboost的模型

2. 目标函数

3. 决策树的复杂度

4. 再回到目标函数

5. 求解第t次迭代的决策树 f t ( x i ) f_{t}(x_{i}) ft​(xi​)

5.1 叶子节点对于的预测分数： w w w

5.2 树的结构 q ( x ) q(x) q(x)

5. 求解第t次迭代的决策树 $f_{t}(x_{i})$

5.1 叶子节点对于的预测分数： $w$

5.2 树的结构 $q (x)$