基础概念
boosting方法是一种常用的统计学习方法,在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。
具体操作是:从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的boosting方法都是改变训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。
第八章 提升方法
1. Adaboost算法(Adaptive boosting)
对于boosting方法,两个关注的问题:
- 在每一轮如何改变训练数据的权值或概率分布;
- 如何将弱分类器组合成一个强分类器。
Adaboost解决上述两个问题的方法分别是:
- 对于第一个问题,提高前一轮弱分类器错误分类样本的权值,降低正确分类样本的权值
- 弱分类器的组合方式——加权多数表决,即哪个分类器误差率小的分类器权值大,分类误差率大的分类器权值小。
【Adaboost算法特点】
- 不改变训练数据,仅改变训练样本的权值分布,使得训练数据在基本分类器的学习中起不同的作用;
- 将基本分类器进行线性组合,构建最终的分类器。
【Adaboost算法步骤】
2. Adaboost算法训练误差分析
Adaboost算法不需要知道训练误差下界,与早期的boosting方法不同,Adaboost具有适应性,能适应弱分类器各自的训练误差率。
3. Adaboost算法解释
Adaboost算法的另一个解释:模型为加法模型,损失函数为指数函数,学习算法为前向分步算法时的二分类学习方法。