(八)GBDT为什么拟合负梯度(拟合残差?)

原创已于 2023-09-24 11:50:42 修改 · 889 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2023-09-24 11:49:21 首次发布

机器学习从0到1 专栏收录该内容

14 篇文章

订阅专栏

GBDT为什么拟合负梯度，拟合残差又是怎么回事，到底是负梯度还是残差

以GBDT求解回归任务为例子，每次迭代，修改y值为损失函数（目标函数）的负梯度（或者叫残差，因为和残差的表达式一样，这是个巧合），问题是为什么要把y值修改为负梯度（残差），也就是为什么拟合负梯度（残差）

在这里插入图片描述

损失函数(目标函数)

GBDT求解回归问题时，常用的时平方个损失函数。即：
$L(y,f_t(x)) = \frac{1}{2}(y-f_t(x))^2$
GBDT是个加法模型，将所有弱学习器(CART回归树)的输出加起来，这么做是想让模型的输出逐渐的趋近于真实值。数学上当然是通过损失函数来实现的，在加的过程中让损失函数越来越小。

所以研究“为什么是拟合负梯度”的问题，可以转化为“怎么才能使的损失函数loss越来越小，而且是loss下降的最快”，这里有三种思路，一个一个讲：

（1）将loss泰勒展开

一阶泰勒展开式如下
$f(x) ≈ f(x_0) + f'(x_0)(x-x_0)$
把loss按一阶泰勒展开式进行展开
$L(y,f_t(x))=L(y,f_{t-1}(x))+\frac{\partial L(y,f_{t-1}(x))}{\partial f_{t-1}(x)}(f_t(x)-f_{t-1}(x))$
上式中

$L(y,f_{t-1}(x))$ 是上一颗树（第t-1棵树）的损失值，在这里就是个确定值了，是个常数。

$∂L(y,ft−1(x))∂ft−1(x)\frac{\partial L(y,f_{t-1}(x))}{\partial f_{t-1}(x)}$ 也是个确定值，是个常数。

要让loss变小，负梯度方向是下降最快的方向。所以在优化loss时，要把参数 $f_t(x)$ 沿着负梯度的方向优化，即：
$\begin{align} f_t(x) &= f_{t-1}(x) - η\frac{\partial L(y,f_t(x))}{\partial f_t(x)}\\ & \\ & = f_{t-1}(x) - η (\frac{\partial L(y,f_{t-1}(x))}{\partial f_t(x)}+\frac{\partial (\frac{\partial L(y,f_{t-1}(x))}{\partial f_{t-1}(x)}(f_t(x)-f_{t-1}(x)))}{\partial f_t(x)}\\ & \\ & = f_{t-1}(x) - η\frac{\partial L(y,f_{t-1}(x))}{\partial f_{t-1}(x)}\\ \end{align}$
实际上第t颗树需要拟合的值 $γ_t$ 就是：
$\begin{align} γ_t & = f_t(x)-f_{t-1}(x) \\ & \\ & = - η\frac{\partial L(y,f_{t-1}(x))}{\partial f_{t-1}(x)} \\ & \\ & = - η \ (y-f_{t-1}(x)) \end{align}$

至此，GBDT需要拟合的是负梯度的第一种解释完毕

（2）类比线性回归中的梯度下降算法

线性回归问题的参数是 $θ\theta$ ，求解时常用的时梯度下降算法。即：
$\theta_t = \theta_{t-1} -η \bigg[\frac{\partial Loss(\theta)}{\partial \theta}\bigg]_{θ=θ_{t-1}}$
类比到GBDT模型中，首先思考第一个问题，GBDT模型的参数时什么。

好的，我猜你已经抽象出来了，GBDT的方程如下：

$f_t(x) = f_{t-1}(x) -η \bigg[\frac{\partial Loss(f(x))}{\partial f(x)}\bigg]_{f(x)=f_{t-1}(x)}$
$f_t(x)$ 表示到第t颗树为止模型的输出，显然第t颗树要拟合的值为：
$\begin{align} γ & = f_t(x) - f_{t-1}(x) \\ & \\ & = -η \ \bigg[\frac{\partial Loss(f(x))}{\partial f(x)}\bigg]_{f(x)=f_{t-1}(x)}\\ & \\ & = - η \ \frac{\partial L(y,f_{t-1}(x))}{\partial f_{t-1}(x)}\\ & \\ & = - η \ (y-f_{t-1}(x)) \end{align}$

（3）直接求解

损失函数如下
$\begin{align} loss &= L(y,f_t(x))\\ &= L(y,f_{t-1}(x)+γ_t)\\ &= \frac{1}{2}(y-(f_{t-1}(x)+γ_t))^2\\ &= \frac{1}{2}((y-f_{t-1}(x))-γ_t))^2\\ &= \frac{1}{2}(r-γ_t))^2\\ \end{align}$
上式中，r就是残差，即：
$r = y-f_{t-1}(x)$
数学上可以证明，当导函数为0的点，loss取得极值，导函数为零的 $γ_t$ 计算如下：
$γ_t =\frac{\partial L(y,f_t(x))}{\partial γ_t} =\frac{\partial}{\partial γ_t}\frac{1}{2}(r-γ_t)^2 =r =y-f_{t-1}(x)$