机器学习之集成学习

集成学习理论

集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。

集成学习的种类

(1)集成学习分哪几种?他们有何异同?

  • Boosting:迭代式学习
    在这里插入图片描述

Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖

它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重测试时,根据各层分类器的结果的加权得到最终结果。

Boosting的过程很类似于人类学习的过程,我们学习新知识的过程往往是迭代式的,第一遍学习的时候,我们会记住一部分知识,但往往也会犯一些错误,对于这些错误,我们的印象会很深。第二遍学习的时候,就会针对犯过错误的知识加强学习,以减少类似的错误发生。不断循环往复,直到犯错误的次数减少到很低的程度。

  • Bagging:集体投票决策

在这里插入图片描述

Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖可以进行并行训练

Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出的判断不会完全一致。在最终做决策时,每个个体单独作出判断,再通过投票的方式做出最后的集体决策

  • 对比:boosting主要是降低bias;bagging 主要用来降 variance

我们再从消除基分类器的偏差和方差的角度来理解Boosting和Bagging方法的差异。基分类器,有时又被称为弱分类器,因为基分类器的错误率要大于集成分类器。基分类器的错误,是偏差和方差两种错误之和。偏差主要是由于分类器的表达能力有限导致的系统性错误,表现在训练误差不收敛。方差是由于分类器对于样本分布过于敏感,导致在训练样本数较少时,产生过拟合。

Boosting方法是通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差Bagging方法则是采取分而治之的策略,通过对训练样本多次采样(多个基分类器并行训练,不就相当于多次采样?),并分别训练出多个不同模型,然后做综合,来减小集成分类器的方差。假设所有基分类器出错的概率是独立的,在某个测试样本上,用简单多数投票方法来集成结果,超过半数基分类器出错的概率会随着基分类器的数量增加而下降。

集成学习的步骤和例子

虽然集成学习的具体算法和策略各不相同,但都共享同样的基本步骤。

(1)集成学习有哪些基本步骤?请举几个集成学习的例子

集成学习一般可分为以下3个步骤:

1.误差互相独立的基分类器。

2.训练基分类器。

3.合并基分类器的结果。

合并基分类器的方法有 voting 和 stacking 两种。前者是用投票的方式,将获得最多选票的结果作为最终的结果。后者是用串行的方式,把前一个基分类器的结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值