xgboost:算法数学原理

原创

已于 2023-03-03 19:44:25 修改 · 600 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #决策树

于 2023-03-03 08:15:37 首次发布

XGBoost是一种梯度提升决策树算法，其预测值由多棵决策树的输出加权求和得出。文章详细介绍了XGBoost的预测模型表达式，以及带正则项的损失函数，包括二阶泰勒展开和二阶近似的损失函数。通过不断优化单棵树来减少整体损失，XGBoost使用了贪心策略，每次迭代只优化一棵树，并通过计算叶子节点的增益来决定分裂。正则化项用于控制模型复杂度，防止过拟合。

xgboost算法数学原理

1、求预测值
$y^i=ϕ(xi)=∑k=1Kfk(xi),fk∈F,(1) \hat{y}_i=\phi\left(\mathbf{x}_i\right)=\sum_{k=1}^K f_k\left(\mathbf{x}_i\right), \quad f_k \in \mathcal{F},\tag{1}$
$f(x)=wq(x)}(q:Rm→T,w∈RT)\mathcal{F}=\left\{f(\mathbf{x})=w_{q(\mathbf{x})}\right\}\left(q: \mathbb{R}^m \rightarrow T, w \in \mathbb{R}^T\right)$ ：递归树的的空间；

$q$ ：每棵树的结构，映射一个样本到一个叶子节点index；

$T :$ 叶子的数目； $f_k$ 对于一个独立的树结构 $q$ 和叶子权重 $w$ 。

$w_i$ ：在 $i - t h$ 叶子节点的分数；（与决策树不同，递归树在每个叶子节点上包含一个连续分数）。

示例图：（注：图中的人指的是一个个样本）

结合上面的公式理解就是对于样本 $i$ 的预测值等于 $K$ 棵递归树样本落在的叶子节点对应的分数的和；

在这里插入图片描述

2、计算带正则项的损失
$L(ϕ)=∑il(y^i,yi)+∑kΩ(fk) where Ω(f)=γT+12λ∥w∥2(2) \begin{aligned} & \mathcal{L}(\phi)=\sum_i l\left(\hat{y}_i, y_i\right)+\sum_k \Omega\left(f_k\right) \\ & \text { where } \Omega(f)=\gamma T+\frac{1}{2} \lambda\|w\|^2 \end{aligned}\tag{2}$
$l$ ：衡量预测值 $yi^\hat{y_i}$ 和目标值 $y_i$ 差别的可微的凸函数；

$Ω\Omega$ ：模型复杂度的惩罚项；用于平滑最终的学习权重避免过拟合。正则化的目标函数倾向于选择一个更简单、可预测的函数（递归树模型）；传统的梯度提升树没有用正则化项，RGF用到。

3、梯度树集成（Gradient Tree Boosting）

从对全部递归树的损失，利用贪心和近似，推导到一棵树的损失

为什么用(3)式作为目标函数而不是(2)式？

将(1)和(2)合并：
$\begin{aligned} & \mathcal{L}(\phi)=\sum_i l\left(\sum_{k=1}^K f_k\left(\mathbf{x}_i\right), y_i\right)+\sum_k \Omega\left(f_k\right) \\ & \text { where } \Omega(f)=\gamma T+\frac{1}{2} \lambda\|w\|^2 \end{aligned}\tag{2}$