集成机器学习6—GBM_gbm模型机器学习-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43484614/article/details/105346263

1 Boosting的一般框架

１.初始化 $f_0(x)$
2.for m = 1 : M do
　　 $\bullet$ 找一个弱学习器 $\phi_m(\mathbf x)$ ，使得 $\phi_m(\mathbf x)$ 能改进 $f_{m-1}(\mathbf x)$
　　 $\bullet$ 更新 $f_m(\mathbf x) = f_{m-1}(\mathbf x) + \alpha_m\phi_m(\mathbf x)$
3. return $f_M(\mathbf x)$

2 Gradient Boosting

$\bullet$ 目标：损失函数 $\sum_{i=1}^{N} L(f(\mathbf x_i), y_i)$ 最小
$\bullet$ 若已有 $f_{m-1}(\mathbf x)$ ，如何在 $f_{m-1}(\mathbf x)$ 的基础上改进 $f(\mathbf x)$ ？
$\bullet$ 梯度下降： $f_m(\mathbf x) = f_{m-1}(\mathbf x) - \eta\frac{\partial J(f)}{\partial f(x)}|_{f(\mathbf x) = f_{m-1}(\mathbf x)}$
$\bullet$ 对比： $f_m(\mathbf x) = f_{m-1} + \alpha_m\phi_m(\mathbf x)$
$f$ 代表的是要求的模型， $f_m$ 代表第m轮要求的模型。
以上代表的思想：用弱学习器来预测目标函数的负梯度。前边这句话很明确，但是应如何来预测目标函数的负梯度呢？此处，及后边章节，老师也没有很细的讲。注意：梯度下降优化的是参数，所以迭代过程的公式是 $w_{new} = w_{old} - \eta \nabla$

3 Gradient Boosting Algorithm

$r_{m,i}$ 是梯度，也可以理解为残差。倒数第二个点号含义：用 $\phi$ 拟合 $r_{m,i}$

4 AdaBoost as Gradient Boosting

$\bullet$ 将指数损失 $L(f(\mathbf x),y) = exp(-yf(x))$ 代入，
$\bullet$ $\sum_{i=1}^{N}L(f(\mathbf x_i), y_i)$
$\bullet$ $\frac{\partial J(f)}{\partial f} = \frac{\partial [\sum_{i=1}^{N}exp(-y_if(\mathbf x_i))]}{\partial f} = \sum_{i=1}^{N}y_iexp(-y_if(\mathbf x_i))$
$\bullet$ 第m步，负梯度为： $-\frac{\partial J(f)}{\partial f}|_{f=f_{m-1}} = \sum_{i=1}^{N}y_iexp(-y_if_{m-1}(\mathbf x_i))$
上一个步骤中，PPT在 $exp(-y_if_{m-1}(\mathbf x_i))$ 的底部画了一个向下的大括号，大括号地下写的是 $w_{m,i}$ ，表达式右边用红色字体写的AdaBoost中的样本权重（下面有截图），代表的含义可能这部分可以看作是样本权重 $w_{m,i}$ ，但无法理解为什么？
$\bullet$ 弱学习器 $\phi_m(\mathbf x)$ 要尽可能拟合负梯度，则 $\phi_m(\mathbf x_i)$ 尽可能与 $y_i$ 同号(预测正确)，即最佳的 $\phi_m$ 为错误率最小的弱分类器(每个样本的权重为 $w_{m,i}$ )
在这里插入图片描述
$\bullet$ 以下通过另 $\frac{\partial J(f)}{\partial \alpha_m} = 0$ ，得到 $\alpha_m = \frac{1}{2} log \frac{1-\varepsilon_m}{\epsilon_m}$ 。这部分能看懂，但将 $exp(-y_if_{m-1}(\mathbf x_i))$ 用 $w_{m,i}$ 代替的那一步不是很明白，上边也遇到过这样的替代，那里就已经不明白了。
在这里插入图片描述通过改变样本权重得方式来推导AdaBoost表达式
VS
通过梯度提升这样一般性得方法推导AdaBoost

这两种方法得到得结果是一样的。

5 Gradient Boosting—其他损失函数

$\bullet$ 指数损失对离群点(outliers)比较敏感，而且也不是任何二值变量的概率密度取log后的表示。
$\bullet$ 因此另一种选择是损失函数取负log似然损失，得到logitBoost。
$\bullet$ 对回归问题，损失函数可取L2损失，得到L2boosting。

老师：AdaBoost为什么不常用，因为对离群点比较敏感，不支持概率输出（理论上就不支持）。所以，AdaBoost在推导的意义上很重要，但用的时候可能就用logitBoost。
只要损失函数确定，就能用Gradient Boosting的方式推导，就能得到对应的Boost。