【ML】极限梯度提升算法XGBoost（Extrme Gradient Boosting）

最新推荐文章于 2025-11-05 17:37:25 发布

原创

最新推荐文章于 2025-11-05 17:37:25 发布 · 4.9k 阅读

9 ·

CC 4.0 BY-SA版权

XGBoost是一种基于梯度提升的决策树算法，通过引入正则化项和优化目标函数，有效控制模型复杂度，防止过拟合。相较于GBDT，XGBoost利用二阶导数信息，提供更精确的逼近，支持自定义代价函数，具备并行计算能力，显著提升训练速度。

极端梯度提升XGBoost

XGBoost属于boosting集成学习方法，其基学习器的学习是串行的。CART回归树的加法模型：
$\hat{y}=\phi(x)=\sum_{i=1}^K f_k(x),\quad f_k\in \mathcal{F}$
其中， $\mathcal{F}=\{f(x)=w_{q(x)}\}(q: \mathbb{R}^m\rightarrow T,w\in \mathbb{R}^T)$ 为包含所有CART回归树的函数空间。

每个 $f_k$ 对应一个独立的树结构 $q$ 和叶子结点的得分，它的取值为样本点所在叶结点的得分，
树结构 $q$ 看做一个诸多样本点映射到各个叶子结点的函数， $T$ 为叶子结点的个数，
$w_i$ 代表第 $i$ 个叶子结点的得分。

模型参数为每棵树的结构及其叶结点的得分，或者简单的记作 $\Theta=\{f_1,f_2,...,f_K\}$ ，也就是说，这里我们要学习的是一个个函数——学习树模型：定义一个目标函数，然后最优化目标函数。

XGBoost目标函数——正则化思想

基于正则化思想，给定数据集 $\{(x_i,y_i),\quad 1\leq i\leq n\}$ ， $x_i\in \mathbb{R}^m, y_i\in\mathbb{R}$ ，通过最优化以下目标函数来学习模型，
$\begin{aligned} &\min_{f_k} \quad L(\phi)=\sum_{i=1}^nl(y_i,\hat{y}_i)+\sum_{k=1}^K\Omega(f_k)\\ &where \quad \Omega(f)=\gamma T+\frac{1}{2}\lambda ||w||^2 \end{aligned}$

其中， $l$ 为损失函数（可微、凸函数）； $\Omega$ 衡量树的复杂度：对叶结点个数 $T$ 进行惩罚（剪枝），叶结点得分 $w$ L2正则化项（光滑的得分函数、避免过拟合）。

优化目标函数——Additive Training

由于我们这里的 $f_k$ 是树，而不是一般地数值向量，不能用像SGD这样的方法来求解，因此采用Additive Training。

第 $t$ 轮学习中，我们需要寻找最优的 $f_t$ 得到预测 $\hat{y}_i^{(t)}=\hat{y}_i^{(t-1)}+f_t(x_i)$ ，可写第 $t$ 轮的目标函数
$\begin{aligned} L^{(t)}&=\sum_{i=1}^nl(y_i,\hat{y}_i^{(t)})+\sum_{k=1}^t\Omega(f_k)\\ &=\sum_{i=1}^nl(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega(f_t)+\sum_{k=1}^{t-1}\Omega(f_k) \end{aligned}$