GBDT算法

爱学习不掉头发

已于 2024-11-11 17:55:18 修改

阅读量1.4k

点赞数 24

分类专栏：机器学习文章标签：算法 GBDT 机器学习

于 2024-11-11 17:53:53 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_51385258/article/details/143665534

版权

机器学习专栏收录该内容

41 篇文章

订阅专栏

GBDT

1. 残差提升树（BDT）

梯度提升树（Grandient Boosting）是提升树（Boosting Tree）的一种改进算法，所以在讲梯度提升树之前先来说一下残差提升树。
残差提升树：

通过拟合残差的方式进行提升
残差 = 真实值 - 预测值
残差可以是正的，也可以是负的，不能加绝对值（与绝对误差相区分）

先来个通俗理解：

预测某人的年龄为100岁
第1次预测：对100岁预测，预测成80岁；100 – 80 = 20（残差）
第2次预测：上一轮残差20岁作为目标值，预测成16岁；20 – 16 = 4 （残差）
第3次预测：上一轮的残差4岁作为目标值，预测成3.2岁；4 – 3.2 = 0.8（残差）
若三次预测的结果串联起来： 80 + 16 + 3.2 = 99.2
通过拟合残差可将多个弱学习器组成一个强学习器，这就是提升树的最朴素思想

在这里插入图片描述

上图中所说的新模型指的是集成学习模型；残差拟合模型就是集成学习中使用到的弱学习器

上面提到的残差是什么呢？

假设:

我们前一轮迭代得到的强学习器是：f_t-1(x)
损失函数是：L(y,f_t−1(x))
本轮迭代的目标是找到一个弱学习器：h_t(x)
让本轮的损失最小化: L(y, f_t(x))=L(y, f_t−1(x)) + h_t(x))

当采用平方损失函数时:

在这里插入图片描述

则:

在这里插入图片描述

令：R = y - f_t-1(x)，则:

在这里插入图片描述

此处，R 是当前模型拟合数据的残差（residual）

所以，对于残差提升树来说只需要简单地拟合当前模型的残差。

2. 梯度提升树（GBDT）

梯度提升树不再使用拟合残差，而是利用最速下降的近似方法，利用损失函数的负梯度作为提升树算法中的残差近似值。
在这里插入图片描述
假设: 损失函数仍然为平方损失, 则每个样本要拟合的负梯度为:

在这里插入图片描述

此时, 我们发现 GBDT 拟合的负梯度就是残差，或者说对于回归问题，拟合的目标值就是残差。

如果我们的 GBDT 进行的是分类问题，则损失函数变为 logloss，此时拟合的目标值就是该损失函数的负梯度值。

GBDT - 回归任务，拟合的是残差（损失函数的负梯度）
GBDT - 分类任务，拟合的是分类的损失函数负梯度（比如损失函数采用logloss）

3. GBDT算法实现案例

在这里插入图片描述

3.1 初始化弱学习器（CART树）

我们通过计算当模型预测值为何值时，会使得第一个基学习器的平方误差最小，即：求损失函数对 f(x_i) 的导数，并令导数为0.

在这里插入图片描述

3.2 构建第一个弱学习器（CART树）

由于我们拟合的是样本的负梯度，即：

在这里插入图片描述

由此得到数据表如下：

在这里插入图片描述
损失计算：

在这里插入图片描述

上表中平方损失计算过程说明（以切分点1.5为例）：

切分点1.5 将数据集分成两份 [5.56],[5.56 5.7 5.91 6.4 6.8 7.05 8.9 8.7 9. 9.05]

第一份的平均值为5.56 第二份数据的平均值为（5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05）/9 = 7.5011

由于是回归树，每份数据的平均值即为预测值，则可以计算误差，第一份数据的误差为0，第二份数据的平方误差为 :

$5.70-7.5011)^2+(5.91-7.5011)^2+...+(9.05-7.5011)^2 = 15.72308$

以 6.5 作为切分点损失最小，构建决策树如下：

在这里插入图片描述

以6.5进行划分，左侧和右侧样本的输出值采用负梯度的平均值

3.3 构建第二个弱学习器（CART树）

在这里插入图片描述

以 3.5 作为切分点损失最小，构建决策树如下：

在这里插入图片描述

以3.5进行划分，左侧和右侧样本的输出值采用负梯度的平均值

3.4 构建第三个弱学习器（CART树）

在这里插入图片描述

以 6.5 作为切分点损失最小，构建决策树如下：
在这里插入图片描述

3.5 最终强学习器

在这里插入图片描述

以把x=6样本为例：输入到最终学习器中的结果：7.31 + (-1.07) + 0.22 + 0.15 = 6.61

4. GBDT算法

1.初始化弱学习器

$f_0(x)=\arg\min_c\sum_{i=1}^NL(y_i,c)$

2.对 $m=1,2,\cdots,M$ 有：

（a）对每个样本 $i=1,2,\cdots,N$ ，计算负梯度，回归任务即残差

$r_{im}=-\left[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]=yi - f_{m-1}(x_i)$

（b）将上步得到的残差作为样本新的真实值，并将数据 $x_i,r_{im}), i=1,2,..N$ 作为下棵树的训练数据，得到一颗新的回归树 $f_{m} (x)$ 其对应的叶子节点区域为 $R_{jm}, j =1,2,\cdots,J$ 。其中J为回归树t的叶子节点的个数。

（c）对叶子区域 $j=1,2,\cdots,J$ 计算最佳拟合值

$\Upsilon_{jm}=\underbrace{\arg\min}_{\Upsilon}\sum_{x_i\in R_{jm}}L(y_i, f_{m-1}(x_i)+\Upsilon)$

$\Upsilon$ 相当于是在上一个学习器的残差基础上加了一个修正项

（d）更新强学习器

$f_m(x)=f_{m-1}(x)+\sum_{i=1}^Jr_{jm}I(x\in R_{jm})$

（3）得到最终学习器

$f(x)=f_M(x)=f_0(x)+\sum_{m=1}^M\sum_{j=1}^Jr_{jm}I(x \in R_{jm})$

5. 泰坦尼克号案例实战

该案例是在随机森林的基础上修改的，可以对比讲解。

数据地址：

titanic数据

5.1 导包并选取特征

#1.数据导入
#1.1导入数据
import  pandas as pd
#1.2.利用pandas的read.csv模块从互联网中收集泰坦尼克号数据集
titanic=pd.read_csv("data/titanic.csv")
titanic.info() #查看信息
#2人工选择特征pclass,age,sex
X=titanic[['pclass','age','sex']]
y=titanic['survived']
#3.特征工程
#数据的填补
X['age'].fillna(X['age'].mean(),inplace=True)

5.2 切分数据及特征处理

#数据的切分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test =train_test_split(X,y,test_size=0.25,random_state=22)
#将数据转化为特征向量
from sklearn.feature_extraction import DictVectorizer
vec=DictVectorizer(sparse=False)
X_train=vec.fit_transform(X_train.to_dict(orient='records'))
X_test=vec.transform(X_test.to_dict(orient='records'))

5.3 三种分类器训练及预测

#4.使用单一的决策树进行模型的训练及预测分析
from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()
dtc.fit(X_train,y_train)
dtc_y_pred=dtc.predict(X_test)
print("score",dtc.score(X_test,y_test))
#5.随机森林进行模型的训练和预测分析
from sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier(random_state=9)
rfc.fit(X_train,y_train)
rfc_y_pred=rfc.predict(X_test)
print("score:forest",rfc.score(X_test,y_test))
#6.GBDT进行模型的训练和预测分析
from sklearn.ensemble import GradientBoostingClassifier
gbc=GradientBoostingClassifier()
gbc.fit(X_train,y_train)
gbc_y_pred=gbc.predict(X_test)
print("score:GradientBoosting",gbc.score(X_test,y_test))

5.4 三种分类器性能评估

#7.性能评估
from sklearn.metrics import classification_report
print("dtc_report:",classification_report(dtc_y_pred,y_test))
print("rfc_report:",classification_report(rfc_y_pred,y_test))
print("gbc_report:",classification_report(gbc_y_pred,y_test))