16- 梯度提升分类树GBDT (梯度下降优化) (算法)

原创

已于 2023-02-15 02:03:42 修改 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #回归 #随机森林

于 2023-02-14 19:25:44 首次发布

文章详细介绍了梯度提升算法（GBDT）在分类问题中的应用，特别是使用交叉熵作为损失函数的情况。通过示例展示了如何构建和理解GBDT分类树，包括初始值计算、残差计算、决策树的分裂以及概率计算。文章还通过手动计算与算法预测的对比，验证了GBDT分类树的工作原理。

梯度提升算法

from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier(subsample=0.8,learning_rate = 0.005)
clf.fit(X_train,y_train)

1、交叉熵

1.1、信息熵

构建好一颗树，数据变的有顺序了（构建前，一堆数据，杂乱无章；构建一颗，整整齐齐，顺序），用什么度量衡表示，数据是否有顺序：信息熵
物理学，热力学第二定律（熵），描述的是封闭系统的混乱程度
信息熵，和物理学中熵类似的

$\bg_white \small H(x) = -\sum\limits_{i = 1}^n p(x)log_2p(x)$

$H(x) = \sum\limits_{i = 1}^n p(x)log_2\frac{1}{p(x)}$

1.2、交叉熵

由信息熵可以引出交叉熵！

小明在学校玩王者荣耀被发现了，爸爸被叫去开家长会，心里悲屈的很，就想法子惩罚小明。到家后，爸爸跟小明说：既然你犯错了，就要接受惩罚，但惩罚的程度就看你聪不聪明了。这样吧，我们俩玩猜球游戏，我拿一个球，你猜球的颜色，我可以回答你任何问题，你每猜一次，不管对错，你就一个星期不能玩王者荣耀，当然，猜对，游戏停止，否则继续猜。当然，当答案只剩下两种选择时，此次猜测结束后，无论猜对猜错都能100%确定答案，无需再猜一次，此时游戏停止。

1.2.1、题目一

爸爸拿来一个箱子，跟小明说：里面有橙、紫、蓝及青四种颜色的小球任意个，各颜色小球的占比不清楚，现在我从中拿出一个小球，你猜我手中的小球是什么颜色？

为了使被罚时间最短，小明发挥出最强王者的智商，瞬间就想到了以最小的代价猜出答案，简称策略1，小明的想法是这样的。

1.2.2、题目二

爸爸还是拿来一个箱子，跟小明说：箱子里面有小球任意个，但其中1/2是橙色球，1/4是紫色球，1/8是蓝色球及1/8是青色球。我从中拿出一个球，你猜我手中的球是什么颜色的？

小明毕竟是最强王者，仍然很快得想到了答案，简称策略2，他的答案是这样的。

这就需要引入交叉熵，其用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

1.3、sigmoid

$f(x) = \frac{1}{1 + e^{-x}}$

$f'(x) = \frac{e^{-x}}{(1 + e^{-x})^2} =f(x) * \frac{1 + e^{-x} - 1}{1 + e^{-x}} = f(x) * (1 - f(x))$

后面算法推导过程中都会使用到上面的基本方程，因此先对以上概念公式，有基本了解！

2、GBDT分类树

2.1、梯度提升分类树概述

GBDT分类树 sigmoid + 决策回归树一一> 概率问题！

损失函数是交叉熵
概率计算使用sigmoid
使用 mse 作为分裂标准（同梯度提升回归树）

2.2、梯度提升分类树应用

1、加载数据

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier

X,y = datasets.load_iris(return_X_y = True)
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 1124)

2、普通决策树表现

model = DecisionTreeClassifier()
model.fit(X_train,y_train)
model.score(X_test,y_test)      # 输出：0.8421052631578947

最低0.47元/天解锁文章