机器学习--XGBoost

最新推荐文章于 2022-12-01 14:51:05 发布

xiayto

最新推荐文章于 2022-12-01 14:51:05 发布

阅读量416

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/xiayto/article/details/79535083

机器学习专栏收录该内容

15 篇文章

订阅专栏

本文详细解析了XGBoost的工作原理及其与GBDT的区别。通过数学推导展示了XGBoost如何利用二阶导数改进模型，并介绍了其核心的损失函数优化过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、模型思想

XGBoost是GBDT改良版，都是通过多个弱学习器，不断地减少残差。GBDT主要是对残差求一阶导，向负梯度的方向拟合残差，而XGBoost运用了泰勒展开，考虑到了二阶导数。

2、公式推导

每次的迭代都是前面的弱学习器组合上新的学习器，表示为：

y ̂ (t) i = y ̂ (t - 1) i + f t (x i)

$\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)}+f_t(x_i)$
目标函数可以表示为：

l o s s = \sum i = 1 n l (y i, y ̂ (t - 1) i + f t (x i)) + Ω

$loss = \sum^n_{i=1}l(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega$
其中

ΩΩ $\Omega$ 是正则项，为了防止过拟合，对树的数量和叶子结点的指加入了惩罚项：

Ω = γ T + 1 2 λ \sum j = 1 T w 2 j

$\Omega = \gamma T + \frac{1}{2}\lambda\sum^T_{j=1}w_j^2$
将

l(yi,ŷ (t−1)i)l(yi,y^i(t−1)) $l(y_i,\hat{y}_i^{(t-1)})$ 看作是

xx $x$ ，

f_{t} (x_{i})

$f_t(x_i)$ 看作是

ΔxΔx $\Delta x$ ，对损失函数进行泰勒展开：

l o s s \approx \sum i = 1 N [l (y i, y ̂ (t - 1) i) + g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω

$loss \approx \sum^N_{i=1} [ l(y_i,\hat{y}_i^{(t-1)}) +g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega$
其中

gigi $g_i$ 和

hihi $h_i$ 分别是一阶导和二阶导，这个导数取决于选择什么损失函数，例如MAE，MSE。

l(yi,ŷ (t−1)i)l(yi,y^i(t−1)) $l(y_i,\hat{y}_i^{(t-1)})$ 这一项，是由前面的弱学习器组成，不会发生改变，可以看成常数项，然后损失函数可以变成：

l o s s \approx \sum i = 1 N （ g i f t (x i) + 1 2 h i f 2 t (x i)) + γ T + 1 2 λ \sum j = 1 T w 2 j

$loss \approx \sum^N_{i=1} （g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i))+\gamma T + \frac{1}{2}\lambda\sum^T_{j=1}w_j^2$
1到N是遍历样本，比较繁琐，把遍历样本转化为遍历叶子节点，损失函数变成：

l o s s \approx \sum i = 1 T [G i w i + 1 2 (H i + λ) w 2 i] + γ T

$loss \approx \sum^T_{i=1}[G_iw_i+\frac{1}{2}(H_i+\lambda)w_i^2]+\gamma T$
其中

GiGi $G_i$ 和

HiHi $H_i$ 分别是这个叶子节点上所有数据的loss的一阶导数和二阶导数的和。
然后目标函数对

wiwi $w_i$ 求偏导数，让偏导数为0可以解除每个树叶节点的值

wiwi $w_i$ ：

\partial l o s s \partial w i = - 1 2 \sum i = 1 T G 2 j H j + λ + γ T = 0

$\frac{\partial loss}{\partial w_i} = -\frac{1}{2}\sum^T_{i=1}\frac{G_j^2}{H_j+\lambda} + \gamma T =0$
解得：

w i = - G j H j + λ

$w_i = -\frac{G_j}{H_j+\lambda}$
回带得到损失函数是：

l o s s = - 1 2 \sum i = 1 T G 2 i H 2 i + λ + γ T

$loss = -\frac{1}{2}\sum^T_{i=1}\frac{G_i^2}{H_i^2 +\lambda} +\gamma T$
与AdaBoost不同的是，AdaBoost基分类器用的是CART决策树，分隔的标准是gini系数，XGBoost则是用这个推出来的损失函数进行分隔。
让这个损失函数下降越多越好，也就是