AdaBoost

今天重新看了一下集成学习,对里面的adaboost重新回顾了一下,感觉有了新的见解。

adaboost并没有涉及到参数的调整,他只不过是在机械的试着各种参数,使分类效果最好的决策树在最终决策上占的比重大一些,但是对于一些样本,可能现有的分类器效果并不是很好,于是在新的分类器中,他尝试着将上次分错的点的奖励变大,鼓励新的分类器去迎合上次分错的点,这就使得整个集成环境的泛化能力大大提高,同时,他也对每个分类器做了权重,避免了对于奇异点的过分追逐,因此具有很强的健壮性。

Adaboost是通过改变样本的权重使得最后的总体误差尽可能的小,或许有人会问(当然,我之前也存在这样的疑惑)我们过分的追求在样本集上尽可能得到最好的分类效果,但是通过改变样本权重获得的分类算法能够在样本集之外的数据上获得很好的分类效果吗?如果我们要获得好的分类效果不应该通过修改参数来实现吗 ?

其实,这个问题,我们可以透过现象看本质,首先我们来考虑一下为什么我们要通过这种方式来获得新的分类器?我们不妨设想一下,我们有一堆数据,但是我们无法用一条直线将其分割开来,但是我们能否用多条线段给围出一条曲线或者折线来分割呢?这就是Adaboost的分类思想在图形上的展示,好了,接下来我们来考虑一下,我们用一个分类器画出了一条直线,但是有一些点分错了,这时候我们想要将其分正确就要再画一条线来弯一下,但是这条线怎么弯?往哪个方向弯?这是我们改解决的问题,那我们有什么方法能够保证弯的正确呢?再显示的一些问题中,如果我们对某件事特别关注,我们就会对其十分的上心,为什么美国说一个钱学森能抵五个师?是钱老很有钱?很帅?还是很重?都不是,因为钱老是空气动力专家,在火箭领域有着举足轻重的地位,美国需要这项技术所以钱老的权重就很高,以此类推,我们在乎那些分错的点能够在下次分类中正确的分类出来,所以我们也给他安上一个大大的权重,告诉分类器,你把他给我分好,别的分对分错都没他重要,这样分类器就会在分类的时候尽最大努力去分好这个点(没办法啊,这个权重太大,分对一百个也没分对这一个给的奖励多啊)所以,分类器就控制着这条线往正确的方向弯合适的角度。但是我们光照顾这个点了别的点分类错了太多怎么办?我们于是给每个分类器按照错误率给定了一个在最终决策时的票权,分类效果好的投票比重高(大股东)分类效果差的比重小(小股东),或许有人会问了,万一某个值就小股东分对了怎么办?小股东分对了但是投票权重小,董事局根本不听他的,但是,我们想一想,别的都分错了,就一个小股东分对了,他得多迁就这个数据点才能就分对他一个大笑,这个点明显属于离群点了,说不定就是个错误数据,这样我们即便分错也无关紧要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值