关于“gbdt的残差为什么用负梯度代替?“的讨论

这个问题,我顿悟了,故写下来,帮助各位理解。
讨论地址:https://www.zhihu.com/question/63560633

先看最简单的例子,残差=真值-预测值,这个时候是不是接下来的弱分类器拟合残差即可。好,问题是,为什么还要用梯度呢?

再看loss = 残差 + 其他项,这里的其他可能是正则项等控制损失函数的量,我们需要整体让其最小。

如果我们依然是拟合残差,那么其他项的会小嘛?是不是就有这么一疑问。

关键问题就在于,现实生活中的损失函数不仅仅是由残差这么一个指标构成的,各位可能应用过正则化等其他需要控制损失函数的变量,且也要使其最小。而解决实际问题恰恰是要使得损失函数最小,而不是一个简单的残差。

实际问题最优,等价于损失函数最小,那么在后续中需要关注的是一个整体,也就是梯度的改变,而不是其中的部分,也就是残差的改变。

另外不确定的(别看,只是我的理解):
后面的问题中,残差这个词渐渐广义,变为了整体的差距,也就是损失函数的差距。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值