8.GDBT算法原理及实现

许久是混子

已于 2022-05-07 21:04:38 修改

阅读量5.4k

点赞数 1

分类专栏：数据挖掘有监督学习文章标签：决策树机器学习算法集成学习数据挖掘

于 2021-12-27 16:43:24 首次发布

本文链接：https://blog.youkuaiyun.com/XuJiuInChina/article/details/122175300

版权

数据挖掘同时被 2 个专栏收录

16 篇文章

订阅专栏

有监督学习

8 篇文章

订阅专栏

GBDT是一种基于梯度提升的决策树算法，通过不断迭代弱学习器来降低损失函数。XGBoost是GBDT的优化版，引入正则项并采用二阶导数信息，提高了效率和泛化能力。XGBoost在决策树构建时进行预剪枝，支持并行计算，适合大规模数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GBDT

一、概念

文章目录

\; Boosting \; Decision \;Tree)

梯度提升决策树，是

\; Boosting

框架下使用的较多的一个模型，且在

G B D T

中，其基学习器是分类回归树，也就是

C A R T

（详见 3.决策树原理与数学建模实战），且使用的是

C A R T

树中的回归树。

决策树分为两大类：回归树与分类树。前者用于预测实数值，后者用于分类标签值，其区别是，前者的结果加减是有意义的，如， $10 元 + 3 元 = 13 元$ ，后者的加减是无意义的，如： $男 + 女 = ？$

$G B D T$ 的核心在于累加所有树的结果作为最终结果。而分类树的结果显然是没有办法累加的，所以 $G B D T$ 中的树都是回归树，不是分类树（尽管 $G B D T$ 也可以用作分类但不代表所使用的树是分类树）。

二、算法原理

2.1 原理

$\; Boosting$ 集成了 $B o o s t i n g$ 的思想，利用加法模型与前向分布算法实现学习的优化过程。每个基学习器在上一轮学习器的基础上进行训练。对弱学习器（弱分类器）的要求一般足够简单，并且是低方差和高偏差的（欠拟合）。因为训练的过程就是通过降低偏差不断提高最终学习器的精度。

它根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的弱分类器以累加的形式结合到现有的模型中。其算法伪码如下：

2.2 算法流程

$A l g o r i t h m :$

$F_0(x) = \arg \min_p \sum\limits^N_{i=1}L(y_i, \rho)$
$\; m = 1 \; to \; M \; do:$
$\quad \tilde y_i = [\frac{\partial L(y_i), F(x_i)}{\partial F(x_i)}]_{F(x) = F_{m-1(X)}} \quad i = 1, \dots, M$
$\quad a_m = \arg \min_{\alpha, \beta}\sum\limits^{N}_{i=1}[\tilde y_i = \beta h(x_i :a)]^2$
$\quad \rho _m = \arg \min_\rho \sum\limits^{N}_{i=1}L(y_i, F_{m-1}(x_i)+ \rho h(x_i : a_m))$
$\quad F_m(x) = F_{m-1}(x) + \rho_m h(x:a_m)$
$\; For$
$\; Algorithm$

$G B D T$ 的核心就在于，每一棵树学习的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。

比如 $A$ 的真实年龄是 $18$ 岁，但第一棵树的预测年龄是12岁，差了6岁，即残差为6岁。那么在第二棵树里我们把 $A$ 的年龄设为6岁去学习，如果第二棵树真的能把 $A$ 分到6岁的叶子节点，那累加两棵树的结论就是 $A$ 的真实年龄；如果第二棵树的结论是5岁，则 $A$ 仍然存在 1 岁的残差，第三棵树里 $A$ 的年龄就变成1岁。如果我们的迭代轮数还没有完，可以继续迭代下面每一轮迭代，拟合的岁数误差都会减小。

2.3 目标函数

模型一共训练 $M$ 轮，每轮产生一个弱学习器 $T（x;θ_m)$ 。弱学习器的目标函数可以表示为：
$\hat{\theta_m} = \sum\limits^{\arg \min N}_{i=1}L(y_i, F_{m-1}(x_i) + T(x; \theta_m))$
$F_{m−1}(x_i)$ 为当前的模型， $G B D T$ 通过经验风险极小化来确定下一个弱学习器的参数。具体使用到的损失函数的选择也就是这里的 $L$ ，主要有平方损失函数， $0 - 1$ 损失函数，对数损失函数等等。如果我们选择平方损失函数，那么这个差值其实就是我们平常所说的残差。

目标：第一个是希望我们的损失函数能够不断减小；第二个是希望我们的损失函数能够尽可能快地减小。

让损失函数沿着负梯度方向的下降，是 $G B D T$ 的 $G B$ 另外一个核心。利用损失函数的负梯度在当前模型的值，作为回归提升树算法中的残差的近似值去拟合一个回归树。 $G B D T$ 每轮迭代的时候，都去拟合损失函数在当前模型下的负梯度。

这样每轮训练的时候都能够让损失函数尽可能快的减小，尽快地收敛达到局部最优或者全局最优。

2.4 梯度提升于梯度下降

两者对比可用下表表示：

梯度提升	函数空间 $F$	$F_{t-1} - \rho_t\nabla_FL\|_{F=F_{t-1}}$	$L=\sum\limits L(y_i, F(x_i))$
梯度下降	参数空间 $W$	$w_t = w_{t-1} - \rho_t \nabla_wL\|_{w=w_{t-1}}$	$\sum\limits L(y_i,f_w(w_i))$

可以发现，两者都是在每一轮迭代中，利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新，只不过在梯度下降中，模型是以参数化形式表示，从而模型的更新等价于参数的更新。而在梯度提升中，模型并不需要进行参数化表示，而是直接定义在函数空间中，从而大大扩展了可以使用的模型种类。

三、Python实现

$G B D T$ 封装在 sklearn.ensemble 中，其分类器 GradientBoostingClassifier 与回归器 GridientBoostingRegressor 接口皆在此包内。

from sklearn.datasets import load_boston
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

X, y = load_boston(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=42)

gbdt = GradientBoostingRegressor()
gbdt.fit(X_train, y_train)

plt.plot(y_test, 'r', label='True')
plt.plot(gbdt.predict(X_test), 'b', label='Predict')
plt.legend()
plt.savefig('E:/Computer/Desktop/数模/有监督学习/集成学习/gbdt.png', dpi=400)

拟合效果如下：

在这里插入图片描述

四、XGBoost

4.1 概念

$X G B o o s t$ 本质上还是 $G B D T$ ，但是把速度和效率做到了极致；

不同于传统的 $G B D T$ 方式，只利用了一阶的导数信息， $X G B o o s t$ 对损失函数做了二阶的求导 （泰勒展开），并在目标函数之外加入了正则项整体求最优解，用以权衡目标函数的下降和模型的复杂程度，避免过拟合。

$X G B o o s t$ 继承了 $G B D T$ ，模型也是 $C A R T$ , 但不仅限于回归树。因此还是沿用了加法模型，但是在目标函数上有所区别。

4.2 区别与联系

原始的 $G B D T$ 算法基于经验损失函数的负梯度来构造新的决策树，只是在决策树构建完成后再进行剪枝。而 $X G B o o s t$ 在决策树构建阶段就加入了正则项，即：
$L_t = \sum\limits_il(y_i, F_{t-1}(x_i)) + \Omega f(x_t)$
其中 $F_{t-1}(x_i)$ 表示现有的 $t - 1$ 棵树的最优解，关于树结构的正则化项定义为：
$\Omega (f_t) = \gamma T + \frac 12 \lambda\sum\limits^T_{j=1}w^2_j$
其中 $T$ 为叶子节点个数， $w_j$ 表示第 $j$ 个叶子节点的预测值。对该损失函数在 $F_{t-1}$ 处进行二阶泰勒展开可以推导出：
$L_t \approx \tilde{L_t} = \sum\limits^T_{j=1}[G_jw_j + \frac 12 (H_j + \lambda)w_j^2] + \gamma T$
其中 $T$ 为决策树 $f_t$ 中叶子节点的个数， $G_j = \sum\limits_{i \in I_j}\nabla_{F_{t-1}}I(y_i, F_{t-1}(x_i))$ ， $H_j = \sum\limits_{j \in I_j}\nabla^2_{F_{t-1}}l(y_i, F_{t-1}(x_i))$ ， $I_j$ 表示所有属于叶子节点 $j$ 的样本的索引的结合。

假设决策树的结构已知，通过令损失函数相当于 $w_j$ 的导数为 0 可以求出在最小化损失函数的情况下各个叶子节点上的预测值
$w_j^* = - \frac{G_j}{H_j + \lambda}$
然而从所有的树结构中寻找最优的树结构是一个 $N P - h a r d$ 问题，因此在实际中往往采用贪心法来构建出一个次优的树结构，基本思想是从根节点开始，每次对一个叶子节点进行分裂，针对每一种可能的分裂，根据特定的准则选取最优的分裂。不同的决策树算法采用不同的准则，如 $I D 3$ 采用信息增益， $C 4.5$ 为了克服信息增益中容易偏向取值较多的特征而采用信息增益比， $C A R T$ 算法使用基尼指数和平方误差， $X G B o o s t$ 也有特定的准则来选取最优分裂。

通过将预测值代入到损失函数中可求得损失函数的最小值
$\tilde {L^*_t} = - \frac 12 \sum\limits^T_{j=1}\frac{G^2_j}{H_j+\lambda} + \gamma T$
容易计算出分裂前后损失函数的差值为：
$\frac{G_L^2}{H_L+\lambda} + \frac{G_R^2}{H_R+\lambda} - \frac{(G_L + G_R)^2}{H_L+H_R+\lambda} - \gamma$
$X G B o o s t$ 采用最大化这个差值作为准则来进行决策树的构建，通过遍历所有特征的所有取值，寻找使得损失函数前后相差最大时对应的分裂方式，此外，由于损失函数前后存在差值一定为正的限制，此时 $\gamma$ 起到了一定的预剪枝效果。