关于“gbdt的残差为什么用负梯度代替？“的讨论

最新推荐文章于 2024-01-18 21:02:36 发布

我在Bilibili上大学

最新推荐文章于 2024-01-18 21:02:36 发布

阅读量533

点赞数 8

文章标签：算法机器学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_43693424/article/details/134707363

版权

这个问题，我顿悟了，故写下来，帮助各位理解。
讨论地址：https://www.zhihu.com/question/63560633

先看最简单的例子，残差=真值-预测值，这个时候是不是接下来的弱分类器拟合残差即可。好，问题是，为什么还要用梯度呢？

再看loss = 残差 + 其他项，这里的其他可能是正则项等控制损失函数的量，我们需要整体让其最小。

如果我们依然是拟合残差，那么其他项的会小嘛？是不是就有这么一疑问。

关键问题就在于，现实生活中的损失函数不仅仅是由残差这么一个指标构成的，各位可能应用过正则化等其他需要控制损失函数的变量，且也要使其最小。而解决实际问题恰恰是要使得损失函数最小，而不是一个简单的残差。

实际问题最优，等价于损失函数最小，那么在后续中需要关注的是一个整体，也就是梯度的改变，而不是其中的部分，也就是残差的改变。

另外不确定的（别看，只是我的理解）：
后面的问题中，残差这个词渐渐广义，变为了整体的差距，也就是损失函数的差距。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我在Bilibili上大学

关注关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

GBDT：残差与梯度；以及相同样本模型结果不同的原因

HappinessSourceL的博客

09-12

2364

我的问题： 1、为什么决策树的损失函数的梯度值可以直接有y-f(x)计算出来，即不用去计算像线性回归即逻辑回归的计算每个参数的梯度下降一样，如常用的theta(i) := theta(i)-alpha* (J(theta)对theta(i))，theta(j) := theta(j)-alpha* (J(theta)对theta(j))的偏导。此处注意要更新每个参数值之后再去用每个更新后的the...

GBDT推导-拟合负梯度和残差

猫哥

08-26

2463

梯度提升树-为什么拟合负梯度将学习器F看做一个参数，损失函数为 L(y,F)L(y,F)L(y,F)，为使L损失最小，采用梯度下降法： Fm=Fm−1−dLdF F_m=F_{m-1}-\frac{dL}{dF} Fm=Fm−1−dFdL 提升树采用加法模型（基函数的线性组合）与前向分布算法： Fm=Fm−1+T F_m=F_{m-1}+T Fm=Fm−1+T T为训练的新树，所以有：...

参与评论您还未登录，请先登录后发表或查看评论

gbdt 为什么要用负梯度来代表残差？

zbzckaiA的博客

01-10

3536

https://www.optbbs.com/thread-279562-1-1.html https://blog.youkuaiyun.com/shenxiaoming77/article/details/72810671 1.负梯度的方向可证，模型优化下去一定会收敛 2.对于一些损失函数来说最大的残差方向，并不是梯度下降最好的方向，倒是损失函数最小与残差最小两者目标不统一 3.引用 ...

(八)GBDT为什么拟合负梯度(拟合残差?)

user_28608的博客

09-24

712

以GBDT求解回归任务为例子，每次迭代，修改y值为损失函数（目标函数）的负梯度（或者叫残差，因为和残差的表达式一样，这是个巧合），问题是为什么要把y值修改为负梯度（残差），也就是为什么拟合负梯度（残差）

GBDT中残差和梯度的关系

qq_25713443的博客

04-08

539

https://www.cnblogs.com/duan-decode/p/9889955.html

GBDT原理解析：为什么说GBDT是拟合残差的梯度下降算法

nickzzzhu的博客

08-09

1万+

写这篇博客是因为博主花了一天时间在网上找GBDT的原理解析，但发现所有介绍GBDT的文章都没有说清楚，尤其没有让博主明白为什么GBDT的每一步学习是基于之前的错误学习的，是在拟合残差。于是博主只好又花半天时间读了Friedman的原文的前半部分（后半部分开始介绍正则化、变量重要性定义和模拟实验了，没细看），感觉终于懂了80%-90%。博主觉得一定要把这个理解记下来，以便以后复习。本博客主要参考...

机器学习从零到入门 GBDT 梯度提升决策树

UK - UofL HW - SDE

10-25

1307

GBDT 详解一、梯度的概念1、日常生活中的梯度2、函数中的梯度2.1、走进数学2.2、从数学到机器学习(1)、损失函数的理解 loss function(2)、梯度的理解 gradient(3)、梯度下降与损失函数二、GBDT1、回归树 - Regression Decision Tree，DT2、梯度提升 - Gradient Boosting - GB3、提升树 - Boosting Desicion Tree - BDT三、GBDT的应用1、GBDT的分类与回归2、GBDT+LR 一、梯度的概

机器学习之梯度提升决策树(GBDT)

谓之小一

05-02

2万+

1.GBDT算法简介 GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案，我们根据其名字(Gradient Boosting Decision Tree)来展开推导过程。决策树(Decision Tree)我们已经不再陌生，在之前介绍到的机器学习之决策树(C4.5算法)、机器学习之分类与回归树(CA...

GBDT梯度提升树原理剖析

数清风的博客

10-18

1158

GBDT梯度提升树原理剖析在前面的文章中，我写了ID3及CART决策树的思路，但我们只是将其用来做分类。注意到CART的名字：Classification And Regression Tree，当我们利用其进行回归时，它的名字就变成了回归树。GBDT（Gradient Boosting Decision Tree）就是一种基于回归的预测方法。今天我们来看一看这个算法的原理。先来熟悉一下回归树的方法

十大机器学习算法-梯度提升决策树（GBDT）

zjwreal

06-01

5099

todo

GBDT算法详解

星辰的博客

03-04

1万+

基本思想 GBDT的基本结构是决策树组成的森林，学习方式是梯度提升。具体的讲，GBDT作为集成模型，预测的方式是把所有子树的结果加起来。GBDT通过逐一生成决策子树的方式生成整个森林，生成新子树的过程是利用样本标签值与当前树林预测值之间的残差，构建新的子树。例如，当前已经生成了3课子树了，则当前的预测值为D(x)=d1(x)+d2()x+d3(x)，此时我们得到的当前的预测值为D(x)效果并不好，与真正的拟合函数f(x)还有一定的差距。GBDT希望的是构建第四棵子树，使当前树林的预测结果D(x)与第四棵

深度学习基础：残差网络为何可以解决梯度消失

weixin_43507744的博客

05-08

3318

普通网络：对损失函数进行求导（1）残差网络对损失函数进行求导 (2) 对别两个（1）（2）我们可以发现：（1）中，当一种的几个偏导很小的时候，梯度会迅速趋近于0，但是（2）中，要趋近于0，条件比较苛刻，要么前面一部分趋近0，要么后一部分趋近-1 总的来说，残差网络并不是解决了梯度消失问题，而是在一定程度上规避了问题，让其很难梯度消失。 .........

GBDT算法

Aaadsda414114的博客

12-17

1332

GBDT的算法

GBDT算法之回归算法