一、知识梳理
1、集成学习是机器学习中的一大分支。
2、根据单个学习器的产生过程的不同,集成学习大致可以分为两大类:
Boosting,串行,代表方法AdaBoost,GBDT,XGBOOST
Bagging,并行,代表方法随机森林
3、Boosting一般需要考虑两个方面:
1)在每一轮如何改变训练数据的权值或概率分布?
通过提高那些在前一轮被弱分类器分错样例的权值,减小前一轮分对样本的权值,而误分的样本在后续受到更多的关注。
2)通过什么方式来组合弱分类器?
通过加法模型将弱分类器进行线性组合,即增大错误率小的分类器的权值,同时减小错误率较大的分类器的权值。
4、Bagging主要的核心在于抽样方法:
1)每轮从原始样本集中有放回随机抽取n个训练样本(即有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集相互独立)
2)每次使用一个训练集去训练得到一个模型,k个训练集共得到k个模型。(具体到用什么模型可以根据具体问题而定)
3)预测结果:对分类问题便是将上述得到的k个模型采用投票的方式得到分类结果;对回归问题变数计算上述模型的均值作为最后的结果。