机器学习进阶（三）boost

最新推荐文章于 2024-05-13 13:53:21 发布

Little Yueyue

最新推荐文章于 2024-05-13 13:53:21 发布

阅读量695

点赞数

分类专栏：菜鸟入门倒计时

本文链接：https://blog.youkuaiyun.com/little_yueyue/article/details/114155990

版权

本文深入探讨了提升算法，包括Adaboost、GBDT和Xgboost。解释了Adaboost的前向分步算法、损失函数以及权重更新，GBDT的一阶泰勒展开和残差拟合，以及Xgboost的二阶泰勒展开、正则项和并行化处理。同时，文章提到了缺失值处理和Xgboost在处理缺失值的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提升
Adaboost
- 前向分步算法
- 步骤
GBDT
Xgboost
bagging和boosting

提升

概念：提升可以用于回归和分类问题，它每一步产生一个弱预测模型(如决策树)，并加权累加到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升(Gradientboosting)。
理论：如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器。
损失函数：对于每个样本，经典定义为 $\quad L(y, F(\vec{x}))=\frac{1}{2}(y-F(\vec{x}))^{2}，或者 L(y, F(\vec{x}))=|y-F(\vec{x})|$
我们的目标是获取最优函数 $F^{*}(\vec{x}),$ 使得： $F^{*}(\vec{x})=\underset{F}{\arg \min } E_{(x, y)}[L(y, F(\vec{x}))]$
若 $F(\vec{x})$ 为常数，损失函数取前者，则 $F^{*}(\vec{x})$ 为 $y_1,\dots,y_n$ 的均值，取后者，是中位数。

Adaboost

二分类的分类器，损失函数为指数型损失函数 $exp(y_if(x_i))$ ，分类器类型未规定。通过提高前一轮弱分类器错误分类样本的权值，降低正确分类样本的权值，使未分类正确的样本获得更多的关注。
在求解弱分类器和分类器权重时采取前向分步算法。

前向分步算法

整体思路：先假定 $F (x)$ 是一族基函数 $f_i(x)$ 的加权和
$F(\vec{x})=\sum_{i=1}^{M} \gamma_{i} f_{i}(x)+\text { const }$
通过最小化损失函数 $L\left(y_{i}, F_{m}(\vec{x})\right)$ 去得到局部最优的 $F_{m}(\vec{x})$ ，更新模型权重，得到加法模型
$F_{m}(\vec{x})=F_{m-1}(\vec{x})+\underset{ \gamma_i,f \in H}{\arg \min } \sum_{i=1}^{n} L\left(y_{i}, F_{m-1}\left(\vec{x}_{i}\right)+\gamma_if\left(\vec{x}_{i}\right)\right)$

步骤

假设经过 $m$ 轮迭代前向分步算法已经得到 $f_{m}(x):$
$\begin{aligned} f_{m}(x) &=f_{m-1}(x)+\alpha_{m-1} G_{m}(x) \\ &=\alpha_{1} G_{1}(x)+\cdots+\alpha_{m} G_{m}(x). \end{aligned}$
现在我们的目标是在第 $m + 1$ 轮迭代得到 $\alpha_{m+1}, G_{m+1}(x)$ 和 $f_{m+1}(x)$ ，
使得在训练数据集 $T$ 上的指数损失最小，即
$\left(\alpha_{m+1}, G_{m+1}(x)\right)=\arg \min _{\alpha, G} \sum_{i=1}^{N} \exp \left[-y_{i}\left(f_{m}\left(x_{i}\right)+\alpha G\left(x_{i}\right)\right)\right]\\ =\arg \min _{\alpha, G} \sum_{i=1}^{N} \bar{w}_{m+1, i} \exp \left[-y_{i} \alpha G\left(x_{i}\right)\right]$
其中, $\bar{w}_{m+1, i}=\exp \left[-y_{i} f_{m}\left(x_{i}\right)\right]$ （与该轮样本权值只差一个规范化系数，在PS中详细解释）。
该式子第一行从形式来看，是最小化未赋权样本在当前整个分类器 $f_m$ 的损失函数，第二行从结果看，是最小化赋权样本在该轮分类器 $G_m$ 上的损失函数。

PS:
初始化训练集的权重分布 $D_1=(w_{11}，\dots，w_{1i},\dots,w_{1N})，w_{1i}=\frac{1}{N}$ 。假设经过 $m$ 轮迭代，得到基于样本 $D_m$ 分布的分类器 $G_m(x_i)$ ，及根据分类器 $G_m(x_i)$ 误差得到的系数 $\alpha_m$ ，现在需要更新下一轮样本的权值 $D_{m+1}$