GBDT模型

最新推荐文章于 2025-11-06 17:45:19 发布

原创

最新推荐文章于 2025-11-06 17:45:19 发布 · 386 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #算法

GBDT（Gradient Boosting Decision Tree）是一种强大的机器学习算法，通过拟合残差逐步提高模型精度。本文深入探讨了GBDT的核心思想，包括数学原理和简单代码实现，涉及决策树的构建和损失函数的负梯度作为残差的近似值。

GBDT模型

GBDT模型
- 1. GBDT算法原理

GBDT模型

1. GBDT算法原理

1.1 GDBT算法的核心思想

GDBT 是 Gradient Boosting Decision Tree （梯度提升树）的缩写。GBDT也是一种非常实用的Boosting算法，它与AdaBoost算法的区别在于：AdaBoost算法根据分类效果调整权重并不断迭代，最终生成强学习器；GBDT算法则将损失函数的负梯度作为残差的近似值，不断使用残差迭代和拟合回归树，最终生成强学习器。简单来说，AdaBoost算法是调整权重，而GBDT算法则是拟合残差。

# 例如：
客户 = [A, B, C, D] 
年龄 = [24, 28, 32, 30]                  # X1
月收入 = [10000, 20000, 15000, 25000]    # X2
信用卡额度 = [8000, 30000, 25000, 40000] # y

# 此处：残差=信用卡额度-所在位置的值
if 月收入 < 20000元:
    if 年龄 < 25岁:
        10000元 对于A来说残差为-2000
    else:
        20000元 对于C来说残差为 5000
else:
    35000元 对于B来说残差为-5000，对于D来说残差为 5000

接下来构造第二棵决策树来拟合第一棵决策树产生的残差，注意这里拟合的是残差

if 年龄 < 30岁:
    if 月收入 < 15000元:
        -3000元 此时A的残差为 1000
    else:
        -5000元 此时B的残差为 0 
else:
    5000元 对于C来说残差为 0 ，对于D来说残差为 0

接着继续构造新的决策树，用第二棵树产生的残差去拟合第三棵树，并不断重复此步骤，使残差变小。最终的模型就是集成在一起的多个模型，这也充分体现了集成算法的集成思想。

1.2 GDBT算法的数学原理概述

迭代模型为： $f_m(x)=f_{m-1}(x)+T_m(x)$ 其中 $f_{m-1}(x)$ 是第 $m - 1$ 次迭代模型，即上一次的迭代模型； $T_m(x)$ 是本次搭建的决策树，其实也是拟合上一个模型残差值的决策树； $f_m(x)$ 是本次迭代后产生的新模型。对GBDT算法来说，只需简单地拟合当前模型地残差，算法步骤如下：