从零实现机器学习：梯度提升算法详解-优快云博客

从零实现机器学习：梯度提升算法详解

ML-From-Scratch Machine Learning From Scratch. Bare bones NumPy implementations of machine learning models and algorithms with a focus on accessibility. Aims to cover everything from linear regression to deep learning. 项目地址: https://gitcode.com/gh_mirrors/ml/ML-From-Scratch

梯度提升算法概述

梯度提升（Gradient Boosting）是一种强大的集成学习技术，它通过组合多个弱学习器（通常是决策树）来构建一个强学习器。该算法通过迭代地训练新模型来纠正前一个模型的错误，最终将所有模型的预测结果进行加权组合。

算法核心思想

梯度提升的核心思想可以概括为以下几点：

梯度下降：将优化问题转化为在函数空间中进行梯度下降
加法模型：通过逐步添加新的模型来改进预测
损失函数最小化：每个新模型都试图纠正前一个模型的残差

代码实现解析

基础架构

在实现中，首先定义了一个GradientBoosting基类，它包含了梯度提升算法的通用逻辑。这个基类随后被GradientBoostingRegressor和GradientBoostingClassifier继承，分别用于回归和分类任务。

关键参数

n_estimators：基学习器（决策树）的数量
learning_rate：学习率，控制每棵树对最终预测的贡献程度
min_samples_split：节点分裂所需的最小样本数
min_impurity：节点分裂所需的最小纯度增益
max_depth：决策树的最大深度

损失函数选择

根据任务类型自动选择合适的损失函数：

回归任务使用平方损失（SquareLoss）
分类任务使用交叉熵损失（CrossEntropy）

训练过程详解

初始化预测值：使用目标变量的均值作为初始预测
迭代训练：
- 计算当前预测的梯度（残差）
- 训练新的决策树来拟合这些梯度
- 更新预测值，将新树的预测乘以学习率后加入

def fit(self, X, y):
    y_pred = np.full(np.shape(y), np.mean(y, axis=0))
    for i in self.bar(range(self.n_estimators)):
        gradient = self.loss.gradient(y, y_pred)
        self.trees[i].fit(X, gradient)
        update = self.trees[i].predict(X)
        y_pred -= np.multiply(self.learning_rate, update)

预测过程

对于回归任务，预测结果是所有树预测值的加权和；对于分类任务，先将预测值转换为概率分布，然后选择概率最大的类别作为最终预测。

def predict(self, X):
    y_pred = np.array([])
    for tree in self.trees:
        update = tree.predict(X)
        update = np.multiply(self.learning_rate, update)
        y_pred = -update if not y_pred.any() else y_pred - update
    
    if not self.regression:
        y_pred = np.exp(y_pred) / np.expand_dims(np.sum(np.exp(y_pred), axis=1), axis=1)
        y_pred = np.argmax(y_pred, axis=1)
    return y_pred