机器学习-树模型-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45593603/article/details/141185032

决策树回归通过不断选择最佳特征和分割点，将数据集逐步划分为更小的子集，直至每个子集内的目标值（如用电负荷）尽可能相似。当数据无法进一步有效划分时，生成叶子节点。每个叶子节点的值是该子集中所有目标值的平均值，作为在这些条件下的预测结果。对于新数据，模型根据输入特征沿着树的路径到达相应的叶子节点，并返回该节点的平均值作为预测结果。

决策树的缺点：容易过拟合，易受噪声影响。

随机森林通过构建多棵不同的决策树来克服这些缺点。它通过对原始数据进行有放回的随机采样，生成不同的训练子集，让每棵树看到不同的样本集，从而训练出差异化的决策树，减少过拟合的风险。当多棵决策树构建完成后，随机森林将这些预测结果进行组合以得出最终的预测结果。对于回归任务，最终预测值是所有树的预测值的平均值；而对于分类任务，则通过投票机制（多数决定）来确定分类结果。

XGBoost的特点在于逐步构建新的树来修正前一棵树的错误（即残差），从而逐步提高模型精度。最初，模型通过简单的方式输出预测值（例如历史负荷的均值作为“基准负荷”），然后计算每个样本的残差（真实值与基准负荷之间的差异）。XGBoost以这些残差为目标，开始构建第一棵树，目标是拟合这些残差，调整初始预测。构建第一棵树后，XGBoost将该树的预测值与基准负荷相加，得到更新后的预测值。此过程会迭代进行，每一棵新树都在前一棵树的基础上继续拟合剩余的残差。最终的预测值是初始预测值与所有树的修正值的总和。

LightGBM的特点在于通过直方图算法加速训练，并通过按叶子生长的策略提高模型精度。具体来说，它通过将连续数据范围离散化为多个bins（桶），基于这些bins寻找最佳分割点，从而显著减少需要遍历的特征值数量，加速训练过程。

与XGBoost传统的按层生长策略（即每层所有节点同时分裂）相比，LightGBM采用了按叶子生成（leaf-wise）策略，即每次只选择当前误差最大的叶子节点进行分裂。虽然这可能导致树结构不均衡，但在实践中，模型性能通常表现更好。与XGBoost类似，LightGBM也基于前一棵树的残差来优化模型，最终的预测值是所有树输出的累加结果。