文件内容课堂总结

集成学习通过组合多个弱模型提升整体性能,解决单一模型的过拟合或欠拟合问题。结合策略分为两类:
 
回归任务采用简单平均法或加权平均法;分类任务通过投票法选择多数结果。
 
集成学习分类
根据基学习器生成方式分为三类:
 
Bagging(并行化方法):基学习器独立训练,通过自助采样生成多样化数据集,结果通过投票或平均聚合。代表算法为随机森林,优点包括抗过拟合、支持高维数据、可并行化及输出特征重要性。
 
Boosting(序列化方法):基学习器按顺序训练,每轮调整样本权重(错误样本权重增加,正确样本权重降低),最终加权组合弱学习器。代表算法为AdaBoost,步骤包括初始化样本权重均等→训练弱分类器并调整权重→根据误差分配权重组合成强分类器。
 
Stacking(分阶段聚合):分两阶段训练——第一阶段用全部数据训练多个基学习器,第二阶段将基学习器的预测结果作为新特征,训练元学习器(如逻辑回归)组合结果。优势在于灵活融合异构模型(如KNN、SVM、随机森林)。
 
 
Bagging与随机森林详解
随机森林(Bagging代表):
 
核心思想:双重随机性(数据随机采样、特征随机选择)生成多棵决策树,通过投票或平均输出结果。
 
特点:
 
数据采样采用有放回抽样生成训练集;
 
特征选择每棵树仅随机选取部分特征;
 
并行训练多棵树独立生成,提升效率。
 

AdaBoost(Boosting代表):
 
核心思想:通过迭代优化错误样本,逐步加强弱分类器(如决策树桩)。
 
步骤:
 
初始化所有样本权重均等;
 
每轮训练弱分类器,调整权重(错误样本权重增加,正确样本权重降低);
 
组合弱分类器时,误差率低的模型赋予更高权重。
 
适用场景:非平衡数据或需提升弱模型性能的场景。
 
 
Stacking算法详解
 
核心思想:分两阶段训练——第一阶段生成基学习器的预测结果作为新特征,第二阶段用元学习器(如逻辑回归)组合结果。
 
特点:灵活融合不同类型基模型(如KNN、SVM、随机森林),但计算成本较高。
 
 

Bagging适合高维数据、追求训练速度的场景(如随机森林);
 
Boosting适合非平衡数据或需提升弱模型性能的场景(如AdaBoost);
 
Stacking适合需要融合多种模型且计算资源充足的复杂任务。
 
Bagging(如随机森林)通过并行化和数据/特征随机性增强模型稳定性,适合高维数据;
 
Boosting(如AdaBoost)通过迭代优化错误样本提升模型精度,适合非平衡数据;
 
Stacking通过分阶段融合异构模型提升泛化能力,但需较高计算成本。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值