2022.12.06要点更新
Bagging和Boosting的区别
1)偏差—方差
Boosting:从偏差—方差分解角度看,降低偏差。
Bagging:从偏差—方差分解角度看,降低方差。
2)样本选择:
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化.而权值是根据上一轮的分类结果进行调整。
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
3)样例权重:
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
Bagging:使用均匀取样,每个样例的权重相等
4)基学习器权重:
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重.
Bagging:所有弱分类器的权重相等.
5)串、并行计算:
Boosting:串行,各个及学习器只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
Bagging:各个预测函数可以并行生成。
写在前面
说起集成学习,更多的是想传递一种观念,就是利用多个分类器集成,组合实现强分类。当然了,也不仅仅是用在分类中,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。
先定义一些基本的,容易混淆的,关于学习器的概念
- 强学习器:Strong learner,相对于弱学习器而言的概念,强学习器指的是可以预测相当准确结果的学习算法。
- 弱学习器:Weak learner,相对于强学习器而言,通常这些弱学习器预测的结果只比随机结果稍好一些。
- 基学习器:Base Learner,集成学习中的个体学习器,基学习器经常是弱学习器,但是并非必须是弱学习器。
- 基学习算法:Base Learning Algorithm,基学习器所基于的算法,基学习器基于基学习算法生成,比如通过不同的训