【机器学习】十五、Gradient boosting算法原理详解

最新推荐文章于 2025-07-03 02:15:00 发布

原创最新推荐文章于 2025-07-03 02:15:00 发布 · 7.9k 阅读

37 ·

CC 4.0 BY-SA版权

文章标签：

#GBDT #算法原理 #机器学习 #boosting #梯度提升算法

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文详细介绍了梯度提升算法（GBDT），包括其简介、回归和分类的应用，以及优缺点。GBDT是一种前向分布算法，通过拟合残差逐步减少损失。在回归问题中，GBDT通过损失函数的负梯度来构建回归树，并在分类问题中展示了其灵活性。该算法以高准确率和对异常值的鲁棒性著称，但训练过程难以并行。

上篇文章分享了AdaBoost的算法原理，这篇文章将讲解Boosting家族中的梯度提升算法(Gradient boosting)。建议看本文之前，先看一下AdaBoost算法的原理。码字不易，喜欢请点赞！！！
在这里插入图片描述

1.梯度提升算法简介

梯度提升(Gradient boosting)，一般简称为GBDT，是由大牛Freidman提出来的。上一节，分享了AdaBoost算法的原理，可以知道AdaBoost算法是前向分布算法。同样，GBDT也是前向分布算法。但是AdaBoost每次是极小化损失函数，而GBDT每次通过拟合上一次的残差来减小损失。并且AdaBoost的基学习器不限定，而GBDT的基学习器限定为CART。

例如，比如一个人身高180，我们首先用170拟合，发现差了10cm，然后用8cm，去拟合，发现残差为2cm，然后我们用1.5cm去拟合，发现差了0.5cm，一直这样拟合下去，残差将会越来越小，知道达到我们的可接受范围，或者拟合次数达到上限。

其关键是采用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值，来拟合一个回归树。例如，训练数据 $x_i,y_i$ 在第m轮时，首先计算 $x_i$ 在 $f_{m-1}(x)$ 上的残差 $r_{mi}$ 来作为第m轮拟合的数据 $x_i,r_{mi})$ ，其中
$r_{mi}=-[\frac{∂L(y,f(x_i))}{∂f(x_i)}]_{f(x)=f_{m-1}(x)}$

2.GBDT回归

GBDT回归的算法流程如下：
输入：训练样本集 $T= \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i\in \chi \in R^n$ ， $y_i\in Y \in R$ ；损失函数 $L (y, f (x))$ ；
输出：回归树 $f (x)$
（1）初始化
$f_0(x)=arg\min _c \sum_{i=1}^{N}L(y_i,c)$
其中c为基学习器叶子节点对应的输出值。
（2）对m=1，2，…，M
（a）对 $i = 1, 2, . . ., N$ ，计算残差：
$r_{mi}=-[\frac{∂L(y,f(x_i))}{∂f(x_i)}]_{f(x)=f_{m-1}(x)}$
（b）对 $r_{mi}$ 拟合一个回归树，得到第m棵树的叶节点区域 $R_{mj},j=1,2,...,J$ 。
（c）对 $j = 1, 2, . . ., J$ ，计算
$c_{mj}=arg\min_{c}\sum_{x_i \in R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
（d）更新
$f_m(x)=f_{m-1}(x)+\sum_{j=1}^{J}c_{mj}I(x \in R_{mj})$
（3）得到回归树
$f(x)=f_M(x)=\sum_{m=1}^{M}\sum_{j=1}^{J}c_{mj}I(x \in R_{mj})$