集成学习(Ensemble Learning)-bagging-boosting-stacking

本文介绍了集成学习的概念,包括弱分类器与强分类器的定义,以及提高集成学习性能的两个条件。重点讲解了集成学习的三种主要方法:Bagging、Boosting和Stacking,解释了它们的工作原理和应用场景。Bagging通过有放回采样构建多样性分类器,Boosting则是通过迭代优化样本权重实现,而Stacking则通过组合多个分类器的预测结果来提高性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Ensemble Learning: Bagging, Boosting, Stacking

基本概念

元算法(meta-algorithm),所谓“三个臭皮匠,顶个诸葛亮”,在做决策时,通常会听取多个专家而不只是一个人的意见。例如,医院在遇到罕见病例时会组织多个专家进行临床会诊,共同分析病例以给出手术方案。这就是元算法背后的思路,元算法也叫集成方法(ensemble method)。

集成学习(Ensemble Learning),就是使用一系列学习器进行学习,并使用某种规则将各个学习器的结果进行整合,从而获得比单个学习器效果更好的学习效果的一种方法。集成学习可以用于分类问题,回归问题,特征选取,异常点检测等的集成,本文采用分类进行说明。

弱分类器,weak classifier, 是指分类器仅能对少量样本进行正确分类,其分类效果仅略优于随机猜测。

强分类器,strong classifier, 是指对样本分类的正确率很高的分类器。

有放回采样,sampling with replacement。对于n个样本的训练集T进行采样,每次采用得到的样本被放回原训练集T中,下次对训练集T进行采样时该样本仍有可能被采集到。

无放回采样,sampling without replacement。对于n个样本的训练集T进行采样,每次采样得到的样本不再被放回原训练集T中,以后对训练集T进行采样时,这个样本以后都不会被采样到。

集成学习的条件

通过集成学习提高分类器的整体泛化能力有以下两个条件:

  1. 基分类器之间具有差异性。如果使用的是同一个分类器集成,集成分类器的性能是不会有提升的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值