这个问题,我顿悟了,故写下来,帮助各位理解。
讨论地址:https://www.zhihu.com/question/63560633
先看最简单的例子,残差=真值-预测值,这个时候是不是接下来的弱分类器拟合残差即可。好,问题是,为什么还要用梯度呢?
再看loss = 残差 + 其他项,这里的其他可能是正则项等控制损失函数的量,我们需要整体让其最小。
如果我们依然是拟合残差,那么其他项
的会小嘛?是不是就有这么一疑问。
关键问题就在于,现实生活中的损失函数不仅仅是由残差这么一个指标构成的,各位可能应用过正则化等其他需要控制损失函数的变量,且也要使其最小。而解决实际问题恰恰是要使得损失函数最小,而不是一个简单的残差。
实际问题最优,等价于损失函数最小,那么在后续中需要关注的是一个整体,也就是梯度的改变,而不是其中的部分,也就是残差的改变。
另外不确定的(别看,只是我的理解):
后面的问题中,残差这个词渐渐广义,变为了整体的差距,也就是损失函数的差距。