一.集成学习概述
1.集成学习算法定义
集成学习----将若干个弱分类器通过一定的策略组合之后产生一个强分类器
分类:bagging(装袋) boosting()
2.装袋
有放回的随机抽样,弱分类器上有的被选择有的没有。
实例:随机森林(在bagging的样本随机采样基础上,又加上了特征的随机选择)
3.boosting(提升)
一个迭代的过程,把弱分类器聚集到很难分类的样本上,给每一个训练样本赋予一个权重,在每一轮结束时自动的调整权重
实例:Adaboost、GBDT、XGBoost算法
4.结合策略
平均法
投票法(相对多数投票法:少数服从多数、绝对多数投票法:票数过半+少数服从多数、加权投票法)
学习法:使用stacking结合策略
二:Adaboost(自适应boost)
1.计算样本权重
2.计算错误率
在训练集上训练出一个弱分类器,并计算分类器的错误率
3.计算弱分类器权重
为当前分类器赋予权重值alpha