集成模型(2)GBDT用于分类和回归及其python实现

原创

已于 2022-03-04 14:48:27 修改 · 2.1k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #机器学习

于 2020-12-03 20:14:47 首次发布

本文详细介绍了GBDT在回归和二分类问题中的应用原理及其实现过程，包括基本思想、算法流程，并给出了Python代码实现。

GBDT用于分类和回归及其python实现

adaboost用于分类的时候其实是模型为加法模型，损失函数为指数损失函数的算法，用于回归的时候是是损失函数为平方误差的损失函数，但是当损失函数为一般损失函数的时候，优化会变得比较复杂，例如我们分类使用对数损失函数，那么前面我们求解基函数权值和样本更新权值的过程就会变得比较复杂，这时候提出了一种新的解决方案——GBDT(Gradient Boosting Decision Tree，梯度提升树)。

1.GBDT回归

1.1基本思想

GBDT用于回归问题时，核心思想是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中残差的近似。然后拟合一个回归树，并且当损失函数为均方误差时，负梯度的值就是残差。其实现过程和AdaBoost用于回归时的差别就在于残差的计算方式上面。

1.2算法流程：

输入：训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，x_i\in R^n,y_i\in R$ ，损失函数 $L (y, f (x))$ ；

初始化： $f_0(x)=argmin_{c}\sum_{i=1}^NL(y_i,c)$
对 $m = 1, 2, . . ., M$ :
(a)对 $i = 1, 2, . . ., N$ 计算 $r_{m,i}=-[\frac{L(y_i,f(x_i))}{f(x_i)}]_{f(x)=f_{m-1}(x)}$
(b)对 $r_{m,i}$ 拟合回归树，得到第m个基模型的叶节点区域 $R_{m,j}, j=1,2,..,J$
(c) 对 $j = 1, 2, . . ., J$ 计算叶节点区域 $R_{m,j}$ 的最佳输出值： $c_{m,j}=argmin_{c}\sum_{x_i\in R_{m,j}}L(y_i,f_{m-1}(x_i)+c)$
(d)更新 $f_m(x)=f_{m-1}(x)+\sum_{j=1}^Jc_{m,j}I(x\in R_{m,j})$
生成加法模型， $f(x)=\sum_{m=1}^M\sum_{j=1}^Jc_{m,j}I(x\in R_{m,j})$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。