西瓜书笔记-8.集成学习

关键词:好而不同,基学习器,Boosting,AdaBoost,Bagging,随机森林(RF),Stacking学习

8.1个体与集成

集成学习:通过构建并结合多个学习器来完成学习任务。先构建“基学习器”或“个体学习器”,再用某种策略将他们结合起来。集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,所以基学习器也成为弱学习器,集成学习研究的核心就是如何产生并结合“好而不同”的个体学习器。(个体学习器应该“好而不同”,要有一定的“准确性”,即学习器不能太坏,并且要有多样性,之间具有差异。互为补充,才可提升效果。

根据基学习器类型是否相同,集成学习分为同质(由同种类型的个体学习器结合—基学习器)和异质(由不同类型的个体学习器结合—个体学习器、组件学习器)。

根据个体学习器的生产方式,集成学习方法大致分为两类:

(1)个体学习器间存在强依赖关系、必须串行生成的序列化方法(Boosting)

(2)个体学习器之间不存在强依赖关系、可同时生成的并行化方法(Bagging,随机森林(RF))

8.2 Boosting

Boosting是一种可将弱学习器提升为强学习器的算法,主要思想是:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后面受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。

代表为AdaBoosting(《统计学习方法》上的推导和例题介绍的很详细),基本流程为:根据初始分布得到第一个基学习器f(x),对样本进行分类判别,得到错误率e——由错误率e得到基学习器的系数a——由系数a更新样本分布D,得到集成学习器G(x),由当前得到的集成学习器再去分类判别,重复进行,直至达到基学习器数目为预定数目或者分类错误率很小为止。


Boosting算法可通过“重赋权法”实施,每轮调整数据权值。对于无法接受带权样本的基学习算法,可通过“重采样法”处理,即每轮学习中,根据样本分布对训练集重新进行采样,利用重采样而得的样本集对基学习器训练。要注意,Boosting算法每轮都会都会检查当前生成的学习器是否比随机猜测(0.5)好。一旦不比其好,则当前基学习器被抛弃,学习停止。此时或许轮数还没达到,导致最终性能不好。若用的重采样法,则可重启动,避免训练过早结束,即在抛弃当前不满足条件的基学习器后,根据当前分布重新对样本采样,基于新样本重新训练,使得预设轮数完成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值