文件内容课堂总结-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_79975534/article/details/146047488

集成学习通过组合多个弱模型提升整体性能，解决单一模型的过拟合或欠拟合问题。结合策略分为两类：

回归任务采用简单平均法或加权平均法；分类任务通过投票法选择多数结果。

集成学习分类
根据基学习器生成方式分为三类：

Bagging（并行化方法）：基学习器独立训练，通过自助采样生成多样化数据集，结果通过投票或平均聚合。代表算法为随机森林，优点包括抗过拟合、支持高维数据、可并行化及输出特征重要性。

Boosting（序列化方法）：基学习器按顺序训练，每轮调整样本权重（错误样本权重增加，正确样本权重降低），最终加权组合弱学习器。代表算法为AdaBoost，步骤包括初始化样本权重均等→训练弱分类器并调整权重→根据误差分配权重组合成强分类器。

Stacking（分阶段聚合）：分两阶段训练——第一阶段用全部数据训练多个基学习器，第二阶段将基学习器的预测结果作为新特征，训练元学习器（如逻辑回归）组合结果。优势在于灵活融合异构模型（如KNN、SVM、随机森林）。

Bagging与随机森林详解
随机森林（Bagging代表）：

核心思想：双重随机性（数据随机采样、特征随机选择）生成多棵决策树，通过投票或平均输出结果。

特点：

数据采样采用有放回抽样生成训练集；

特征选择每棵树仅随机选取部分特征；

并行训练多棵树独立生成，提升效率。

AdaBoost（Boosting代表）：

核心思想：通过迭代优化错误样本，逐步加强弱分类器（如决策树桩）。

步骤：

初始化所有样本权重均等；

每轮训练弱分类器，调整权重（错误样本权重增加，正确样本权重降低）；

组合弱分类器时，误差率低的模型赋予更高权重。

适用场景：非平衡数据或需提升弱模型性能的场景。

Stacking算法详解

核心思想：分两阶段训练——第一阶段生成基学习器的预测结果作为新特征，第二阶段用元学习器（如逻辑回归）组合结果。

特点：灵活融合不同类型基模型（如KNN、SVM、随机森林），但计算成本较高。

Bagging适合高维数据、追求训练速度的场景（如随机森林）；

Boosting适合非平衡数据或需提升弱模型性能的场景（如AdaBoost）；

Stacking适合需要融合多种模型且计算资源充足的复杂任务。

Bagging（如随机森林）通过并行化和数据/特征随机性增强模型稳定性，适合高维数据；

Boosting（如AdaBoost）通过迭代优化错误样本提升模型精度，适合非平衡数据；

Stacking通过分阶段融合异构模型提升泛化能力，但需较高计算成本。