XGBoost详解+问题思考

最新推荐文章于 2025-03-18 16:47:42 发布

原创最新推荐文章于 2025-03-18 16:47:42 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#XGBoost #问题

学术专栏收录该内容

44 篇文章

订阅专栏

本文详细介绍了XGBoost算法的工作原理及其优化策略。XGBoost是GBDT算法的一种高效实现，通过引入正则化项、使用二阶导数等手段减少过拟合，支持并行计算提高效率。文章深入解析了其损失函数的构造与优化求解过程。

前言

2014年，陈天奇博士提出了XGBoost算法，它可认为是在GBDT算法基础上的进一步优化。XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本，因其在应用实践中表现出优良的效果和效率，因而也被工业界广为推崇。算法上的优化有：

1、引入了正则项，控制减少训练过程当中的过拟合
2、XGBoost算法不仅使用一阶导数计算伪残差，还计算二阶导数可近似快速剪枝的构建新的基学习器
3、对比GBDT只支持决策树，XGBoost可以支持很多其他的弱学习器

工程上的优化有：

1、支持并行计算
2、提高计算效率
3、处理稀疏训练数据

XGBoost损失函数

这里首先要讲解的就是一个一直令人很诧异的问题：怎么切割样本点？怎么得到分裂后子树的预测值？这个问题大家可以先去谅解一下这两篇博客：梯度提升树（GBDT）的问题思考、全方面讲解提升树及问题思考 - 统计学习基础。
在GBDT算法中，它是分两步：求出最优的所有J个叶子节点区域，再求出每个叶子节点区域的最优解。对于XGBoost，它期望把这两步合并在一起做，即一次求解出决策树最优的所有J个叶子节点区域和每个叶子节点区域的最优解 $c_{tj}$ 。我们来看下它是如何求解的，首先看下损失函数：
$L_t=\sum_{i=1}^{m}L(y_i,f_{t-1}(x_i)+h_t(x_i))+\Omega(h_t) \\ \Omega(h_t)=\gamma J+\frac{\lambda}{2}\sum_{j=1}^{J}{w_{tj}}^2$
这个公式有一个累加误差的过程， $m$ 表示样本个数。公式 $\Omega(h_t)$ 是一个正则化因子， $J$ 表示叶子区域个数， $w_{tj}$ 表示就是叶子区域预测值，跟GBDT中的 $c_{tj}$ 是一个意思，只不过在XGBoost用 $w_{tj}$ 表示。提出损失函数的目的就是求得使损失函数最小的叶子区域及预测值 $w_{tj}$ ，这里XGBoost没有和GBDT一样去拟合泰勒展开式的一阶导数，而是期望直接基于损失函数的二阶泰勒展开式来求解。现在我们来看看这个损失函数的二阶泰勒展开式：
$\begin{aligned} L_t &=\sum_{i=1}^{m}L(y_i,f_{t-1}(x_i)+h_t(x_i))+\gamma J+\frac{\lambda}{2}\sum_{j=1}^{J}{w_{tj}}^2 \\ &=\sum_{i=1}^{m} \bigg [L(y_i,f_{t-1}(x_i))+L^{'}(y_i,f_{t-1}(x_i))h_t(x_i)+\frac{1}{2}L^{''}(y_i,f_{t-1}(x_i))h_t(x_i)^2 \bigg ]+\gamma J+\frac{\lambda}{2}\sum_{j=1}^{J}{w_{tj}}^2 \end{aligned}$
其中 $L^{'}(y_i,f_{t-1}(x_i))$ 、 $L^{''}(y_i,f_{t-1}(x_i))$ 分别是损失函数对 $f_{t-1}(x_i)$ 的一阶导、二阶导，记做：
$g_{ti} = L^{'}(y_i,f_{t-1}(x_i)) \qquad h_{ti}=L^{''}(y_i,f_{t-1}(x_i))$
简化公式为：
$L_t = \sum_{i=1}^{m} \bigg [L(y_i,f_{t-1}(x_i))+g_{ti}h_t(x_i)+\frac{1}{2}h_{ti}h_t(x_i)^2 \bigg ]+\gamma J+\frac{\lambda}{2}\sum_{j=1}^{J}{w_{tj}}^2$
我们再来思考，L(y_i,f_{t-1}(x_i))是一个常数，表示上一课树的损失函数值， $h_t(x_i)$ 是一个子树区域的预测值，其实也就是 $w_{tj}$ ，把 $m$ 个样本化成 $J$ 个样本子树区域，于是损失函数表示为：
$\begin{aligned} L_t &=\sum_{i=1}^{m} \bigg [g_{ti}h_t(x_i)+\frac{1}{2}h_{ti}h_t(x_i)^2 \bigg ]+\gamma J+\frac{\lambda}{2}\sum_{j=1}^{J}{w_{tj}}^2 \\ &=\sum_{j=1}^{J} \bigg [ \sum_{x_i \in R_{tj}}g_{ti}w_{tj}+\sum_{x_i \in R_{tj}}\frac{1}{2}h_{ti}w_{tj}^2 \bigg ]+\gamma J+\frac{\lambda}{2}\sum_{j=1}^{J}{w_{tj}}^2 \\ &=\sum_{j=1}^{J} \bigg [ \sum_{x_i \in R_{tj}}g_{ti}w_{tj}+\frac{w_{tj}^2}{2}(\sum_{x_i \in R_{tj}}h_{ti}+\lambda) \bigg ]+\gamma J \end{aligned}$
把每个子树区域的样本的一阶和二阶导数的和单独表示如下：
$G_{tj}= \sum_{x_i \in R_{tj}}g_{ti} \qquad H_{tj}=\sum_{x_i \in R_{tj}}h_{ti}$
于是损失函数最终的形式为：
$L_t = \sum_{j=1}^{J} \bigg [ G_{tj}w_{tj}+\frac{w_{tj}^2}{2}(H_{tj}+\lambda) \bigg ]+\gamma J$
得到了最终的损失函数，如何一次求解出决策树最优的所有J个叶子节点区域和每个叶子节点区域的最优解 $w_{tj}$ 呢？

XGBoost损失函数的优化求解

我们得到了最终的损失函数，我们想通过求解损失函数最小值来得到决策树，从而得到样本被划分的子树区域及子树区域的预测值，所以我们的优化公式如下：
$\min L_t = \sum_{j=1}^{J} \bigg [ G_{tj}w_{tj}+\frac{w_{tj}^2}{2}(H_{tj}+\lambda) \bigg ]+\gamma J \\ G_{tj}= \sum_{x_i \in R_{tj}}g_{ti} \qquad H_{tj}=\sum_{x_i \in R_{tj}}h_{ti}$
但对着这个损失函数求解最小值似乎一筹莫展，根本无从下手，其实还是回到了一开始说的那两个问题：

1、怎么划分子树，如何根据特征及特征值来划分子树，使得 $L_t$ 最小？
2、划分子树后，如何计算每个子树区域的预测值，使得 $L_t$ 最小？

这个问题在GBDT算法中也涉及到了，它是通过穷举的方式通过均方误差来划分子树，我们来看下XGBoost如何来做，首先我们通过 $L_t$ 对 $w_{tj}$ 求导，导数等于0求得极值，得到：
$w_{tj}=-\frac{G_{tj}}{H_{tj}+\lambda}$
带入到原损失函数中得到：
$L_{t}=-\frac{1}{2}\sum_{j=1}^{J}\frac{G_{tj}^2}{H_{tj}+\lambda}+\gamma J$
转换后的损失函数就变成了如何来分裂特征获得子树区域，XGBoost使用贪心算法来求解此问题，算法思想：如果我们每次做左右子树分裂时，可以最大程度的减少损失函数的损失就最好了。怎么衡量这个损失函数的损失？用如下公式：
$-\frac{1}{2}\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}-\bigg[-\frac{1}{2}\frac{G_{L}^2}{H_{L}+\lambda}-\frac{1}{2}\frac{G_{R}^2}{H_{R}+\lambda}+\lambda (J+1)\bigg]+\gamma J$
$G_L、G_R$ 是左右子树的一阶导之和， $H_L、H_R$ 是左右子树的二阶导之和。这个公式怎么来的？为什么是这样的形式？目前还不清楚，后面再解析。整理上式，化简为：
$\max \qquad \frac{1}{2}\frac{G_{L}^2}{H_{L}+\lambda}+\frac{1}{2}\frac{G_{R}^2}{H_{R}+\lambda}-\frac{1}{2}\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}-\gamma$

总结XGBoost算法流程

输入：训练集样本 $I=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，最大迭代次数 $T$ ，损失函数 $L$ ，正则化系数 $\lambda,\gamma$
输出：强学习器 $f (x)$
算法流程：
对迭代轮数 $t = 1, 2, . . . T$ 有：

1、计算第i个样本 $(i = 1, 2, . . m)$ 在当前轮损失函数L基于 $f_{t-1}(xi)$ 的一阶导数 $g_{ti}$ ，二阶导数 $h_{ti}$ ,计算所有样本的一阶导数和 $G_t$ 和 $H_t$ 。
2、基于当前节点尝试分裂决策树，默认分数score=0，对特征序号 $k = 1, 2 . . . K$ ：
a、 $G_L=0$ 和 $H_L=0$ ，将样本按特征k从小到大排列，依次取出第i个样本，依次计算当前样本放入左子树后，左右子树一阶和二阶导数和：
$G_L=G_L+g_{ti},G_R=G-G_L \\ H_L=H_L+h_{ti},H_R=H-H_L$
b、尝试更新最大的分数：
$max(score,\frac{1}{2}\frac{G_{L}^2}{H_{L}+\lambda}+\frac{1}{2}\frac{G_{R}^2}{H_{R}+\lambda}-\frac{1}{2}\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}-\gamma)$
3、基于最大score对应的划分特征和特征值分裂子树。
4)、如果最大score为0，则当前决策树建立完毕，计算所有叶子区域的 $w_{tj}$ , 得到弱学习器 $h_t(x)$ ，更新强学习器 $f_t(x)$ ,进入下一轮弱学习器迭代.如果最大score不是0，则转到第2步继续尝试分裂决策树。

疑问：

迭代轮数是做什么的？
步骤流程中2.a步有些看不太明白
尝试将样本加入到左子树，这样来计算一个优化公式，比较与score的值的大小，但是没有讲如果比score小，这个样本最终应该放在哪个子树中？我猜测是放到右子树中，毕竟整个流程中就涉及到左子树，计算也都是左子树，所以放不进去就放在右子树，最终一颗二叉树就成了，然后再继续分裂。
score等于0？
最差的情况是不是就一个样本一个叶子节点，也不能继续分裂了，score=0。这样的决策树泛化能力太弱了，另一种情况就是子树的所有样本 $g_{ti}、h_{ti}$ 都是小于或等于0的。这样就分裂不了。
正则项缺了一个 $\gamma$

算法运行优化

1、所有的特征，特征值都提前排序，并且计算一阶导、二阶导数值
2、根据特征并行的计算分割点，这样可以提高效率，大部分的计算都在第一步里，直接拿结果用来相加就行

缺省值的算法健壮性

看到有些博客里讲解了XGBoost关于缺省值的问题，我们假设有些样本特征值是缺省的，因为缺省的，所以这些样本的一阶导、二阶导都是没有的，那么这些样本是应该放在左子树还是右子树？原本是假定这些样本值是在右子树的。

疑问解答

1）请问xgboost可以用来处理高维度的特征吗，最大能到什么级别呀？
XGboost肯定可以处理高维度的特征的，多大的维度取决于你有多少分布式的计算资源。如果你有一个比较大的spark集群，那么特征维度在百万级肯定没问题。
2）还有就是xgboost做回归和分类的区别是什么呀？在原理这里没有关于分类和回归的区别呀。
xgboost做回归和分类的区别仅仅在于叶子节点的区域拟合值的意义。如果是回归，那么叶子节点区域拟合的就是普通的连续值。如果是分类，叶子节点区域拟合的是类别的概率偏差，这个概率偏差值你可以当做普通的连续值，那么分类和回归就可以从原理上同等对待了。
3）它的gblinear具体是什么意思呢，是怎么使用线性模型进行提升计算的呀？
gblinear意味着弱学习器不使用决策树，而是使用线性模型，回归的话就是线性回归（Lasso，Ridge），分类就是逻辑回归
4） $g_{ti}、h_{ti}$ 是如何计算的？
我们看公式知道， $g_{ti} = L^{'}(y_i,f_{t-1}(x_i))$ 其实对 $f_{t-1}(x_i)$ 求导，这样就存在一个问题，在上一个决策树中，子树叶子节点上的样本的预测值都是一样的，那么这些样本在生成下一棵树时，一阶导、二阶导都是一样的，最差的情况就是所有样本都是一样的，这样到后面算法就有问题了，所以初始值很重要。我们仔细分析，这里有两个问题要讨论：
第一个：我们是用上一个决策树还是利用之前所有的决策树来作为 $f_{t-1}$ 计算当前导数的？实际上是全部的弱学习器来参与计算的，因为有 $f_n=f_{n-1}+T$ ， $T$ 表示为当前弱学习器的某一个样本的预测值，所以是之前全部的学习器
第二个：一阶导和二阶导的计算也跟 $y_i$ 是有关的，在 $T = 0$ 时，有一个默认的初始值，这个初始值对于所有样本都是一样的，由于 $y_i$ 不一样会导致计算一阶导、二阶导时也会有结果会有差异，就尽可能的不会出现所有样本的一阶导、二阶导都是一样的情况。也就不会出现极端的情况。