xgboost 学习笔记整理-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_29225913/article/details/112369262

本文深入探讨了XGBoost算法的目标函数，详细解析了其损失函数与正则化项，并介绍了如何通过泰勒公式展开进行二阶近似。文章进一步阐述了树模型的构建，包括叶子节点的权重和结构，以及正则化项的定义。通过叶子节点的归组，简化了目标函数，并提出了分裂准则，用于决定树的最优分割。最后，讨论了精确贪心算法和近似分裂算法在寻找最佳分割点时的不同策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

xgboost 笔记整理

1.XGBoost 目标函数

$\mathcal{Obj}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}\right)+\sum_{k=1}^{K} \Omega\left(f_{k}\right)$

由训练损失和正则化项组成

$\hat{y}_{i}$ 是第 i 个样本 ${x}_{i}$ 的预测值，对应是每棵树打分的累加和

$\hat{y}_{i}=\sum_{k=1}^{K} f_{k}\left(x_{i}\right), \quad f_{k} \in \mathcal{F}$

2. 学习第 k 颗树

假设第 t 次迭代要训练的树模型是 ${f}_{t}(x)$ ,那么

$\hat{y}_{i}^{(t)}=\sum_{k=1}^{t} f_{k}\left(x_{i}\right)=\hat{y}_{i}^{(t-1)}+f_{t}(x_{i})$

（第 t 次训练的结果 = 前 t-1 颗树的结果 + 第 t 颗树的结果）

注意：对于第 t 次迭代来说，当前优化的目标是第 t 颗树，因此前 t - 1 颗数的预测结果可认为是常量

将上式代入目标函数中，可以得到

$\mathcal{Obj}^{(t)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(\mathbf{x}_{i}\right)\right)+\Omega\left(f_{t}\right) + const$

此处对正则项进行了拆分，由于前 t - 1 颗树的结构已经确定，因此前 t - 1 颗树的复杂度可以用一个常数表示

$\sum_{k=1}^{t} \Omega\left(f_{k}\right)=\Omega\left(f_{t}\right)+\sum_{k=1}^{t-1} \Omega\left(f_{k}\right)=\Omega\left(f_{t}\right)+{const}$

3. 泰勒公式展开

泰勒公式是将一个在 x = x0 处具有n阶导数的函数 $f (x)$ 利用关于 $(x - x 0)$ 的n次多项式来逼近函数的方法

泰勒二阶展开公式：

$f(x+\Delta x) \simeq f(x)+f^{\prime}(x) \Delta x+\frac{1}{2} f^{\prime \prime}(x) \Delta x^{2}$

$f (x)$ 对应于损失函数 $\to l(y_{i}, \hat{y}_{i}^{(t-1)})$

$x$ 对应于前 t-1 颗树 $\to \hat{y}_{i}^{(t-1)}$

$\Delta {x}$ 对应于当前训练的第t颗树 $\to f_{t}(x)$

那么对 x 求偏导，即对前t-1颗树求偏导

定义损失函数 $l$ 关于 $\hat{y}_{i}^{(t-1)}$ 的一阶偏导 $g_{i}$ , 二阶偏导 $h_{i}$

$g_{i}=\partial_{\hat{y}^{(t-1)}} l\left(y_{i}, \hat{y}^{(t-1)}\right)， h_{i}=\partial_{\hat{y}^{(t-1)}}^{2} l\left(y_{i}, \hat{y}^{(t-1)}\right)$

将损失函数 $l$ 进行泰勒二阶展开

$l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)=l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)+g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)$

将展开的损失函数，代入第 t 次迭代的目标函数

$j^{(t)} \simeq \sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y}_{i}^{(t-1)}\right)+g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)+\text { constant }$

去除第 t 次迭代的常数项 (前 t-1 次损失函数、前 t-1 次正则项，常数项对优化不起作用)

$j^{(t)} \simeq \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)$

接下来分别对未知变量 $f_{t}(x)$ 、 $\Omega\left(f_{t}\right)$ 进行定义

4. 定义一颗树 $f_{t}(x)$

$f_{t}(x)=w_{q(x)}, \quad w \in \mathbf{R}^{T}, q: \mathbf{R}^{d} \rightarrow\{1,2, \cdots, T\}$

w: 从节点到权重的映射，长度为T的一维向量，T表示该树有 T个叶子节点，向量中每个数代表着对应叶子节点的权重

例： w1 = 3 （表示第1个叶子节点权重为3）
q(x): q代表着一颗树的结构（分段函数的区间），输出为[1,T]，q(x) 表示将输入样本 $x_{i} \in \mathbf{R}^{d}$ 被树 q 预测后，落入的节点

例：q(x2) = 1 (表示输入样本 x2 在当前树的预测叶子节点为 1, 结合上述w的例子， $f_{t}(x_{2})=w_{q(x_{2})}=w_{1}=3$ )

5. 定义树的复杂度 $\Omega\left(f_{t}\right)$

$\Omega\left(f_{t}\right)=\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$

$\gamma$ : 叶子节点正则项，作用于叶子节点的个数
$\lambda$ : 权值正则项，作用于叶子节点对应的权值
T: 叶子节点的数量
$w_{j}$ : 第 t 颗树的第 j 个叶子节点权值

6. 叶子节点归组

将所有训练样本，按照叶子节点进行归组 $I_{j}=\left\{i \mid q\left(x_{i}\right)=j\right\}$

例：共有5个样本，3个叶子节点，其中落入第 1 个叶子节点的是 x1，落入第 2 个叶子节点的是 x2，落入第 3 个叶子节点的是 x3、x4、x5，那么 $I_{1} \in x_{1}, I_{2} \in x_{2}, I_{3} \in x_{3},x_{4},x_{5}$

利用归组后的样本，对目标函数进行改写：

$\begin{aligned} Obj^{(t)} &\simeq \sum_{i=1}^{n}\left[g_{i} f_{t}\left(x_{i}\right)+\frac{1}{2} h_{i} f_{t}^{2}\left(x_{i}\right)\right]+\Omega\left(f_{t}\right)\\ &=\sum_{i=1}^{n}\left[g_{i} w_{q\left(x_{i}\right)}+\frac{1}{2} h_{i} w_{q\left(x_{i}\right)}^{2}\right]+\gamma T+\lambda \frac{1}{2} \sum_{j=1}^{T} w_{j}^{2}\\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}\right) w_{j}^{2}\right]+\gamma T+\lambda \frac{1}{2} \sum_{j=1}^{T} w_{j}^{2} \\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$

到这一步，已将所有落到同一个叶子节点的样本进行归组，目标函数化简成对所有叶子节点进行求累加和。

即从样本上的遍历，转换成在叶子节点上的遍历。

继续对导数进行定义：

$\begin{aligned} G_{j}=\sum_{i \in I_{j}} g_{i} \\ H_{j}=\sum_{i \in I_{j}} h_{i} \end{aligned}$

$G_{j}$ : 叶子节点 j 所包含的样本的一阶偏导累加和，常量
$H_{j}$ : 叶子节点 j 所包含的样本的二阶偏导累加和，常量

继续将 $G_{j}, H_{j}$ 代入 $Obj^{(t)}$ 进行化简

$\begin{aligned} Obj^{(t)} &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T\\ &=\sum_{j=1}^{T}\left[G_{j} w_{j}+\frac{1}{2}\left(H_{j}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$

7. 求解最优值

根据高中知识，对于二次函数

$y=a x^{2}+b x+c$

其顶点坐标为

$(-\frac{b}{2a} ,\frac{4ac-b^{2}}{4a} )$

那么，对于目标函数

$Obj^{(t)} = \sum_{j=1}^{T}\left[G_{j} w_{j}+\frac{1}{2}\left(H_{j}+\lambda\right) w_{j}^{2}\right]+\gamma T$

其每个叶子节点 j 都是相对独立的一个部分，将其从中抽取出来，

$G_{j} w_{j}+\frac{1}{2}\left(H_{j}+\lambda\right) w_{j}^{2}$

套入一元二次函数最值求解的公式

可以得到

$w_{j}^{*}= -\frac{b}{2a} =-\frac{G_{j}}{H_{j}+\lambda}$

第 t 颗树的最小损失

$j^{(t)}=-\frac{1}{2} \sum_{j=1}^{T} \frac{G_{j}^{2}}{H_{j}+\lambda}+\gamma T$

上式可用作一个评分函数来衡量树结构的质量。分数越小，代表整个树的结构越好，这个评分类似于评价决策树的杂质评分，只是它是为更广泛的目标函数而推导的。

8. 分裂准则

一个节点到底该不该分裂，要看分裂后对比于分裂前的目标函数到底有没有减小

用分裂前的目标函数值减去分裂后的目标函数值，（注意目标函数的符号，为负号，不要将式子看成分裂后-分裂前）

$I_L$ 为每次分裂时分到左子树上的样本， $I_R$ 为每次分裂时分到右子树上的样本，有 $I_L \cup I_R$ 。则在该次分裂后损失的减小量为：

$Gain=\frac{1}{2} [\frac{(\sum_{i\in I_{L}}g_{i})^2}{\sum_{i\in I_{L}}h_{i} +\lambda} + \frac{(\sum_{i\in I_{R}}g_{i})^2}{\sum_{i\in I_{R}}h_{i} +\lambda} - \frac{(\sum_{i\in I}g_{i})^2}{\sum_{i\in I}h_{i} +\lambda}] - \gamma$

此处 $\gamma$ 的作用相当于是一个阈值，即限定 Gain 只有大于 $\gamma$ 时，才进行分裂，起到预剪枝的作用。

Gain > 0: 分裂后比分裂前的损失要小，因此可以进行分裂；
Gain < 0: 分裂后比分裂前的损失要大，因此不推荐分裂。

9. 最优点查找策略

精确贪心算法：对所有特征的所有可能的点全部进行遍历，贪心的每一步选择当前最优的划分节点

$\begin{aligned} &Input: I，当前节点的实例集\\ &Input: d，特征维度\\ &gain \gets 0\\ &G \gets \sum_{i\in I}g_{i} , H \gets \sum_{i\in I}h_{i}\\ &for \ k = 1 \ to \ m \ do\\ &\qquad G_{L} \gets 0, H_{L} \gets 0\\ &\qquad for \ j \ in \ sotred(I,by \ x_{jk}) \ do\\ &\qquad \qquad G_L \gets G_L+g_i,H_L \gets H_L+h_i\\ &\qquad \qquad G_R \gets G-G_L,H_R \gets H-H_L\\ &\qquad \qquad score \gets max(score, \frac{G_L^2}{H_L+\lambda} + \frac{G_R^2}{H_R+\lambda} - \frac{G^2}{H+\lambda})\\ &\qquad end\\ &end \end{aligned}$