深入理解mlcourse.ai项目中的梯度提升算法-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00164/article/details/148416448

深入理解mlcourse.ai项目中的梯度提升算法

梯度提升（Gradient Boosting）是当前机器学习领域最流行且实用的算法之一。它通过组合多个弱学习器来构建一个强大的预测模型，在各类机器学习竞赛和实际业务场景中都取得了卓越的成绩。

提升方法的起源可以追溯到一个核心问题：能否从大量相对简单且性能较弱的模型中构建出一个强大的模型？这里的"弱模型"指的是准确率略高于随机猜测的简单模型。

Robert Shapire在理论上证明了这种可能性，随后发展出了AdaBoost等算法。这些算法采用加权数据的贪婪策略：首先通过重新加权输入数据构建简单模型的线性组合，然后在先前预测错误的样本（被赋予更大权重）上构建新模型。

然而，AdaBoost存在解释性不足的问题，且在处理含有强离群值的数据时容易过拟合。1999年，斯坦福大学的Jerome Friedman提出了梯度提升机（GBM），为提升算法建立了统计基础，提供了在函数空间中进行优化的一般方法。

GBM经过十多年的发展已成为数据科学工具箱中不可或缺的部分，衍生出多种变体：

在工业界，GBM已成为搜索引擎排名系统的核心组件，并被Yandex等公司注册商标。在机器学习竞赛中，基于GBM的XGBoost库因其卓越表现而广受欢迎。

考虑一般的监督学习问题：给定特征x和目标变量y的数据集{(x_i, y_i)}，我们需要恢复依赖关系y = f(x)。通过近似函数f̂(x)来最小化损失函数L(y,f)：

f̂(x) = argmin E[L(y,f(x))]

由于函数空间是无限维的，我们将其限制在参数化函数族f(x,θ)中，转化为参数优化问题。

最朴素的参数优化方法是梯度下降：

GBM的创新之处在于直接在函数空间进行优化。我们将近似函数表示为增量改进的和：

f̂(x) = ∑f̂_i(x)

在每一步t，我们需要找到最优系数ρ和参数θ使得：

(ρ_t,θ_t) = argmin E[L(y, f̂(x) + ρ·h(x,θ))]

实际实现时，我们计算损失函数的梯度（伪残差r_it），然后训练基础模型h(x,θ)来拟合这些伪残差。

Friedman提出的经典GBM算法包含以下组件：

算法流程如下：

用常数初始化GBM： f̂_0 = argmin_γ ∑L(y_i,γ)
对每次迭代t=1到M： a. 计算伪残差： r_it = -[∂L(y_i,f(x_i))/∂f(x_i)]_{f=f̂} b. 在伪残差上训练新基础模型h_t(x) c. 通过线性搜索找到最优系数ρ_t d. 更新模型：f̂(x) ← f̂(x) + ρ_t·h_t(x)