1、Adaboost算法简介
集成学习包括bagging、boosting、stacking三种方法。Adaboost作为boosting方法的一种,由Yoav Freund和RobertSchapire于1995年提出。
Adaboost的英文含义为Adaptive boost,意为自适应增强。Adaboost算法包括分类算法与回归算法,这里讲解分类算法。
这一算法的基本思路是,在一组弱分类器的基础上,通过不断调整弱分类器权重与样本权重,构建强分类器。这一算法需要事先给定一组弱分类器。在这一过程中,会增加分类误差大的样本的权重,减少分类误差小的样本的权重;并通过样本误差进一步确定弱分类器的权重,使得误差越小其权重越大。
2、Adaboost算法过程
2.1 输入输出
1)输入
训练样本集:,其中,
个弱分类器:
2)输出
最终分类器
2.2 算法过程
2.2.1 初始化样本权重
设初始的样本权重为
给训练的每个样本赋予相等的权重:,即以上权重
2.2.2 进行迭代
对于第=1,2,...,T轮迭代:
1)确定本轮基本分类器
根据最新的样本权重,计算每一个弱分类的误差。
每个弱分类器的误差为:
其中,误差最小的弱分类器记为,确定为本轮基本分类器,其误差为
2)计算本轮基本分类器的权重
上述基本分类器的权重:
从上述公式可以看出:当时,
;当
时,
;当
时,
。并且,随着
的增大,
会逐渐减小。
3)确定本轮的分类函数和强分类器
当时,分类函数
,本轮强分类器
;
当时,分类函数
,本轮强分类器
。
4)更新样本的权重
在前述弱分类器的分类下,样本的预测值与实际值可能不一致。在Adaboost算法中,会增加预测错误的样本的权重。为此,构造了如下的样本新权重:
,
其中是规范化因子,构建
。
可以看出是
的分子部分的求和,如此
,且可使得
的取值介于0到1之间。
规范化因子的表达式可以进行简化,
a.当样本分类正确时,,新的样本权重为
b.当样本分类错误时,,新的样本权重为
Tips:的简化过程
在计算时,
已知,与
无关,并且由前述构造可知

最低0.47元/天 解锁文章
910

被折叠的 条评论
为什么被折叠?



