（十六）GBDT与xgboost

最新推荐文章于 2023-12-31 01:31:45 发布

原创最新推荐文章于 2023-12-31 01:31:45 发布 · 536 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文详细介绍了GBDT和XGBoost的工作原理，包括泰勒公式、梯度下降法和牛顿法等内容，并深入探讨了XGBoost的模型函数形式、目标函数、正则项及其在函数空间中的优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GBDT与xgboost

1. 泰勒公式

定义：泰勒公式是一个用函数在某点的信息描述其附近取值的公式。 局部有效性
基本形式： $f(x)\ =\ \sum_{n=0}^\infty \frac{f^{(n)}(x_0)}{n!}(x - x_0)^n$
- 一阶泰勒展开： $f(x) \approx f(x_0) + f'(x_0)(x - x_0)$
- 二阶泰勒展开： $f(x) \approx f(x_0) + f'(x_0)(x - x_0) + f''(x_0)\frac{(x - x_0)^2}{2}$
- 迭代形式：假设 $x^t = x^{t-1} +\Delta x$ ，将 $f(x^t)$ 在 $x^{t-1}$ 处进行泰勒展开：
  $f (x t) = f (x t - 1 + Δ x) \approx f (x t - 1) + f' (x t - 1) Δ x + f'' (x t - 1) Δ x 2 2 (1) (2)$ $\begin{align} f(x^t) & =f(x^{t-1} + \Delta x)\\ & \approx f(x^{t-1}) + f'(x^{t-1})\Delta x + f''(x^{t-1})\frac{{\Delta x}^2}{2} \end{align}$

2. 梯度下降法（Gradient Descend Method）

在机器学习任务中，需要最小化损失函数 $L(\theta)$ ，其中 $\theta$ 是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题，它是一种迭代方法：选取初值 $\theta^0$ ，不断迭代，更新 $\theta$ 的值，进行损失函数的极小化。

迭代公式： $\theta = \theta^{t-1}+\Delta\theta$
将 $L(\theta^t)$ 在 $\theta^{t-1}$ 处进行一阶泰勒展开：

$L (θ t) = L (θ t - 1 + Δ θ) \approx L (θ t - 1) + L' (θ t - 1) Δ θ (3) (4)$ $\begin{align} L(\theta^t) & =L(\theta^{t-1}+\Delta \theta)\\ & \approx L(\theta^{t-1}) + L'(\theta^{t-1})\Delta \theta \end{align}$
要使得 $L(\theta^t) < L(\theta^{t-1})$ ，可使： $\Delta \theta = -\alpha L'(\theta^{t-1})$ ，则： $\theta^t =\theta^{t-1} -\alpha L'(\theta^{t-1})$
这里 $\alpha$ 是步长，可通过 line search 确定，但一般直接赋一个小的数。

3. 牛顿法（Newton’s Method）

将 $L(\theta^t)$ 在 $\theta^{t-1}$ 处进行二阶泰勒展开：

$L (θ t) = L (θ t - 1 + Δ θ) \approx L (θ t - 1) + L' (θ t - 1) Δ θ + L'' (θ t - 1) Δ θ 2 2 (5) (6)$ $\begin{align} L(\theta^t) & =L(\theta^{t-1}+\Delta \theta)\\ & \approx L(\theta^{t-1}) + L'(\theta^{t-1})\Delta\theta + L''(\theta^{t-1})\frac{{\Delta\theta}^2}{2} \end{align}$
为了简化分析过程，假设参数是标量（即 $\theta$ 只有一维），则可将一阶和二阶导数分别记为 $g$ 和 $h$ ：
$L (θ t) \approx L (θ t - 1) + g Δ θ + h Δ θ 2 2$ $L(\theta^t) \approx L(\theta^{t-1}) + g\Delta\theta + h\frac{{\Delta\theta}^2}{2}$
要使得 $L(\theta^t)$ 极小，即让 $g\Delta\theta + h\frac{{\Delta\theta}^2}{2}$ 极小，可令： $\frac{\partial \left(g\Delta\theta + h\frac{{\Delta\theta}^2}{2}\right)}{\partial\Delta\theta} = 0$
求得 $\Delta\theta = -\frac{g}{h}$ ，故： $\theta^t = \theta^{t-1}+\Delta\theta =\theta^{t-1} -\frac{g}{h}$
参数 $\theta$ 推广到向量形式，迭代公式： $\theta^t = \theta^{t-1} -H^{-1}g$
这里 $H$ 是海森矩阵

4. 从参数空间到函数空间

GBDT 在函数空间中利用梯度下降法进行优化
XGBoost 在函数空间中用牛顿法进行优化

注：实际上GBDT泛指所有梯度提升树算法，包括XGBoost，它也是GBDT的一种变种，这里为了区分它们， GBDT特指“Greedy Function Approximation： A Gradient Boosting Machine” 里提出的算法，它只用了一阶导数信息。

5. Gradient Boosting Tree 算法原理

Friedman于论文” Greedy Function Approximation…”中最早提出GBDT
其模型 $F$ 定义为加法模型：

$F (x; w) = \sum t = 0 T α t h t (x; w t) = \sum t = 0 T f t (x; w t)$ $F(x;w) = \sum_{t=0}^T\alpha_t h_t(x;w_t) = \sum_{t=0}^T f_t(x;w_t)$
其中， $x$ 为输入样本， $h$ 为分类回归树， $w$ 是分类回归树的参数， $\alpha$ 是每棵树的权重。
通过最小化损失函数求解最优模型：

$F * = a r g min F \sum i = 0 N L (y i, F (x i; w))$ $F^* = arg\min_F\sum_{i=0}^N L(y_i,F(x_i;w))$
NP难问题 -> 通过贪心法，迭代求局部最优解

6. 详解 XGBoost

6.1 模型函数形式

给定数据集 $D = \{(X_i,y_i)\}$ ，XGBoost进行 additive training，学习K棵树，采用以下函数对样本进行预测：

y i^= ϕ (X i) = \sum k = 1 K f k (X i) f k \in F

$\hat{y_i} = \phi(X_i) = \sum_{k=1}^Kf_k(X_i)\quad f_k \in F$
这里

FF $F$ 是假设空间，

f (x)

$f(x)$ 是回归树（CART）：

F = {f (X) = w q (x)} (q : R m \to T, w \in R T)

$F = \{f(X) = w_{q(x)}\}(q:\mathbb{R}^m \rightarrow T,w\in \mathbb{R}^T)$
$q(x)$ 表示将样本 $x$ 分到了某个叶子节点上， $w$ 是叶子节点的分数（leaf score），所以 $w_{q( x)}$ 表示回归树对样本的预测值

例子：预测一个人是否喜欢电脑游戏

回归树的预测输出是实数分数，可以用于回归、分类、排序等任务中。对于回归问题，可以直接作为目标值，对于分类问题，需要映射成概率，比如采用逻辑函数： $\sigma(x) = \frac{1}{1+e^{-z}}$

6.2 目标函数

参数空间中的目标函数：

误差函数可以是square loss， logloss等，正则项可以是L1正则，L2正则等。

Ridge Regression（岭回归）： $\sum_{i=1}^n(y_i-\theta^Tx_i)^2+\lambda||\theta||^2$
LASSO： $\sum_{i=1}^n(y_i-\theta^Tx_i)^2+\lambda||\theta||_1$

6.3 正则项

XGBoost的目标函数（函数空间）

$L (ϕ) = \sum i l (y i^, y i) + \sum k Ω (f k)$ $\mathcal{L}(\phi) = \sum_il(\hat{y_i},y_i) + \sum_k\Omega (f_k)$
正则项对每棵回归树的复杂度进行了惩罚
相比原始的GBDT， XGBoost的目标函数多了正则项，使得学习出来的模型更加不容易过拟合。
有哪些指标可以衡量树的复杂度？
树的深度，内部节点个数，叶子节点个数(T)，叶节点分数(w)…
XGBoost采用的：
$Ω (f) = γ T + 1 2 λ | | w | | 2$ $\Omega (f) = \gamma T + \frac{1}{2}\lambda||w||^2$
对叶子节点个数进行惩罚，相当于在训练过程中做了剪枝

6.4 误差函数的二阶泰勒展开

第 $t$ 次迭代后，模型的预测等于前 $t-1$ 次的模型预测加上第 $t$ 棵树的预测：

${\hat{y_{i}}}^{(t)} = {\hat{y_{i}}}^{(t - 1)} + f_{t} (x_{i})$ $\hat{y_i}^{(t)} = \hat{y_i}^{(t-1)} + f_t(x_i)$
此时目标函数可写作：

$L (t) = \sum i n l (y i^(t - 1) + f t (x i), y i) + Ω (f t)$ $\mathcal{L}^{(t)} = \sum_i^nl(\hat{y_i}^{(t-1)} + f_t(x_i),y_i) + \Omega (f_t)$
公式中 $y_i$ , $\hat{y_i}^{(t-1)}$ 都已知，模型要学习的只有第 $t$ 棵树 $f_t$
将误差函数在 $\hat{y_i}^{(t-1)}$ 处进行二阶泰勒展开：

$L (t) ≃ \sum i = 1 n [l (y i, y^(t - 1)) + g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t)$ $\mathcal{L}^{(t)} \simeq \sum_{i=1}^n[l(y_i,\hat{y}^{(t-1)}) + g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega (f_t)$
公式中， $g_i = \partial_{ \hat{y}^{(t-1)}}l(y_i, \hat{y}^{(t-1)})\quad h_i = \partial_{ \hat{y}^{(t-1)}}^2l(y_i, \hat{y}^{(t-1)})$
将公式中的常数项去掉，得到：

$L ˜ (t) = \sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t)$ $\widetilde{\mathcal{L}}^{(t)} = \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega (f_t)$
把 $f_t$ ， $\Omega (f_t)$ 写成树结构的形式，即把下式代入目标函数中

$f (x) = w q (x) Ω (f) = γ T + 1 2 λ | | w | | 2$ $f(x) = w_{q(x)}\quad \Omega (f) = \gamma T + \frac{1}{2}\lambda||w||^2$
得到：

$L ˜ (t) = \sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t) = \sum i = 1 n [g i w q (x i) + 1 2 h i w 2 q (x)] + γ T + λ 1 2 \sum j = 1 T w 2 j (7) (8)$ $\begin{align} \widetilde{\mathcal{L}}^{(t)} &= \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] + \Omega (f_t)\\ &= \sum_{i=1}^n[g_i w_{q(x_i)} + \frac{1}{2}h_i w_{q(x)}^2] + \gamma T + \lambda\frac{1}{2}\sum_{j=1}^T w_j^2 \end{align}$
上面第一个 $\sum$ 是对样本累加，第二个 $\sum$ 是对叶节点累加，如何统一起来呢？
定义每个叶节点 $j$ 上的样本集合为： $I_j = \{i|q(x_i) = j\}$
则目标函数可以写成按叶节点累加的形式：

$L ˜ (t) = \sum j = 1 T ⎡ ⎣ (\sum i \in I j g i) w j + 1 2 (\sum i \in I j h i + λ) w 2 j ⎤ ⎦ + γ T = \sum j = 1 T [G j w j + 1 2 (H j + λ) w 2 j] + γ T (9) (10)$ $\begin{align} \widetilde{\mathcal{L}}^{(t)} &= \sum_{j = 1}^T \left[(\sum_{i\in I_j}g_i)w_j + \frac{1}{2}(\sum_{i \in I_j}h_i + \lambda)w_j^2 \right]+\gamma T\\ &= \sum_{j = 1}^T \left[G_j w_j + \frac{1}{2}(H_j + \lambda)w_j^2 \right]+\gamma T \end{align}$
如果确定了树的结构（即 $q(x)$ 确定），为了使目标函数最小，可以令其导数为 0，解得每个叶节点的最优预测分数为：

$w * j = - G j H j + λ$ $w_j^* = -\ \frac{G_j}{H_j + \lambda}$
代入目标函数，得到最小损失为：
$L ˜ * = - 1 2 \sum j = 1 T G 2 j H j + λ + γ T$ $\widetilde{\mathcal{L}}^* = -\ \frac{1}{2}\sum_{j=1}^T \frac{G_j^2}{H_j + \lambda} + \gamma T$