(八)GBDT的原理及实现

原创已于 2023-08-29 22:19:46 修改 · 227 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2023-08-29 22:16:33 首次发布

机器学习从0到1 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了GBDT（GradientBoostingDecisionTree）的数学原理、解决分类和回归问题的方法，以及如何通过sklearn库在Python中实现。它详细讲述了弱学习器、损失函数调整、CART树的构建和迭代过程。

(八)GBDT

本系列重点在浅显易懂，快速上手。不进行过多的理论讲解：也就是不去深究what，而是关注how。全文围绕以下三个问题展开：

1）长什么样？

2）解决什么问题？

3）怎么实现？

3.1）从数学讲，原理

3.2）从代码上讲，如何掉包实现

1 长什么样

GBDT=Gradient Boosting+CART树

gradient boosting decision tree 梯度提升决策树，有多个若学习器组成，弱学习器的通常是层数较少的CART回归树，单个弱学习器，因层数叫浅，所以偏差较大，方差小，最终的GBDT的输出是每个若学习器的输出的加和。如下图所示，为什么是加和？看下文的解释。

备注：所有GBDT算法中，底层都是回归树。

GBDT也是Boosting算法的一种，但是和AdaBoost算法不同；区别如下：
AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值，然后一轮一轮的迭代；GBDT也是迭代，但是GBDT要求弱学习器必须是回归CART模型，而且GBDT在模型训练的时候，是要求模型预测的样本损失尽可能的小。

要迭代所少次，（就是需要多少棵树），需要调参，分类看准确率召回率系列的指标。回归看MSE系列的指标。

给定一个步长step，在构建下一棵树的时候使用step*残差值作为输入值，这种方式可以减少过拟合的发生。

在这里插入图片描述

2 解决什么问题

可以解决分类或回归问题。

3 怎么实现

3.1 数学原理（回归算法）

在这里插入图片描述

（1）初始化第一个若学习器，得到常熟函数 $f_0(x)$

$f_0(x) = arg min_c\sum^{N}_{i=1}L(y_i,c)$

损失函数L是误差平方和损失函数。凸函数，要求极值，可以求导，求解导函数为0的点。过程如下。

$\begin{align*}\sum_{i=1}^N\frac{\partial L(y_i,c))}{\partial c} &=\sum_{i=1}^N\frac{\partial(\frac12(y_i-c)^2)}{\partial c}\\ & =\sum_{i=1}^Nc-y_i=0\\ \end{align*}$

不难得到：

$c=(\sum^{N}_{i=1}y_i)/N$

(2)构建新的样本集，GBDT算法是通过改变y的值，来构建新的样本集，具体的是将标签y，替换为残差 $γ$ 。

$r_{i,m}=-\left[\frac{\partial L(y_i,f(x_i)))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)}$

当回归问题是，采用误差平方和损失函数(MSE)，此时

$r_{i,m}=-\frac{\partial(1/2(y_i-f_{m-1}(x))^2)}{\partial f_{m-1}(x)}\\ =y_i-f_{m-1}(x)$

(3)用上一步，得到的新数据集构建第一个弱学习器，CART回归树，(CART回归树的实现原理，见本系列第5篇博客，（五）决策树)。最终得到的叶子节点如下：

$\begin{align*} Υ_{m,j}&=arg \ min_Υ\sum_{x_i∈R_{m,j}}L(y_i,f_{m-1}(x_i)+Υ)\\ &=arg \ min_Υ\sum_{x_i∈R_{m,j}}L(Υ_{i,m-1},Υ)\\\\ 凸函数，求极值，通过求导，让导函数为0的方式实现：\\ \\ \sum_{i=1}^N\frac{\partial L(Υ_{i,m-1},Υ)}{\partial Υ} &=\sum_{i=1}^N\frac{\partial(\frac12(Υ_{i,m-1}-Υ)^2)}{\partial Υ}\\ & =\sum_{i=1}^N Υ-Υ_{i,m-1}=0\\ Υ&=(\sum^{N}_{i=1}Υ_{i,m-1})/N\\ 所以，第一个若学习的输出为Υ_{1,j}I(x_i∈R_{1,j}) \end{align*}\\$

(4) 更新强学习器，

$f_1(x)=f_0(x)+lr*\sum Υ_{1,j}I(x_i∈R_{1,j})$

（5）再次构建新的数据集，重复（2）（3）（4）的过程，得到最总的强学习器。

$f(x)=f_M(x)=f_0(x)+lr*\sum_{m=1}^M\sum _{j=1}^JΥ_{m,j}I(x_i∈R_{m,j})，其中lr是学习率$

3.2数学原理（分类算法）

在这里插入图片描述

回归问题中，构建新数据集用的是负梯度值，就是用真实值减去预测值，但是在分类问题中，真实值和预测值都是类别，类别之间的相减是没有意义的。一种解决方案是，采用逻辑回归算法中的对数损失函数，用结果的预测概率值和真实概率值的差值作为残差。

逻辑回归的对数损失函数为：

$\ell(\theta)=\log L(\theta)=\sum_{i=1}^{m}\left(y^{(i)}\log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right)\log\left(1-h_{\theta}\left(x^{(i)}\right)\right)\right)$

（1）初始化第一个弱学习器

对上式求导，领导数为0

$\begin{align*} &\frac{\partial L(y_i,F(x_i))}{\partial F(x_i)}=y_i-\frac1{1+e^{-F(x_i)}}\\\\ &\sum(y_i-\frac1{1+e^{-F_0(x)}})=0\\\\ &F_0(x)= log\frac{p(y=1)}{1-p(y=1)}\\ \end{align*}$
(2)计算负梯度，伪残差

$\begin{align*} r_{m,i}&=-\bigg|\frac{\partial L(y_{i},F(x_{i}))}{\partial F(x_{i})}\bigg|_{F(x)=F_{m-1}(x)}\\ &=y_{i}-\frac{1}{1+e^{-F(x_{i})}}\\ \end{align*}$
(3)利用上面求解得到的残差值，形成新的训练集 $x_i,r_{m,i})$ ，训练CART回归树。

(4)训练的cart回归树对应的叶子节点区域为 $R_{m,j}$ ，各个叶子节点的拟合值为：

$\begin{align*} c_{m,j}&=\arg\min\sum_{x_{i}\in R_{m,j}}L(y_{i},F_{m-1}(x_{i})+c)\\ &上式没有闭式解，一般使用近似值代替\\ c_{m,j}&=\frac{\sum_{x_i∈R_{m,j}}r_{m,j}}{\sum_{x_i∈R_{m,j}}r_{m,j}(y_i-r_{m,j})(1-y_i+r_{m,j})}\\ \end{align*}$

(5)更新强学习器

$F_m(x)=F_{m-1}(x)+lr*\sum c_{m,j}I(x_i∈R_{m,j})$
(6)重复3~5共M次，得到最终的强学习器 $F_M(x)$

$\begin{align*} F(x)&=F_M(x)=F_0(x)+lr*\sum_{m=1}^M\sum _{j=1}^Jc_{m,j}I(x_i∈R_{m,j})\\\\ &最终的预测结果为：\\\\ \hat y_i&=\frac{1}{1+e^{-F_M(x)}}\\ \end{align*}$

3.3 掉包sklearn实现

# 调取sklearn包
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor #sklearn中，线性回归模型在linear_model模块中
from sklearn import tree
# 调取sklearn中自带的数据集
from sklearn.datasets import load_iris #调用鸢尾花分类数据集
from sklearn.datasets import load_boston #调用波士顿房价数据集

X1, y1 = load_iris(return_X_y=True) #获取X，y数据
X2, y2 = load_boston(return_X_y=True) #获取X，y数据

rfc =  GradientBoostingClassifier()#初始化一个随机森林分类模型
rfr = GradientBoostingRegressor()#初始化一个随机森林回归模型

rfc.fit(X1,y1) #fit函数用于训练
rfr.fit(X2,y2)

详细情况参见：sklearn.ensemble.GradientBoostingClassifier — scikit-learn 1.3.0 documentation

entBoostingClassifier — scikit-learn 1.3.0 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier)