【集成学习】
集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。是一种分类和回归模型。(判别模型)
集成学习的种类有:Boosting, Bagging 。
提升树(boosting)是2000年由Friedman等人提出。AdaBoost算法是1995年由Freund和Schapire提出。
“三个臭皮匠,顶一个诸葛亮”
1.模型
Q1:如何得到若干个个体学习器?
两种选择:
A.所有的个体学习器都是一个类(同质)
B.所有的个体学习器不全是一个类(异质)
Q2:如何选择一种结合策略,将这些个体学习器集合成一个强学习器?(集成学习的学习策略)
A.回归:平均法 对于若干个弱学习器的输出进行平均得到最终的预测输出。
B.分类:预测法 相对多数投票法/绝对多数投票法/加权投票法
2.基分类器
基分类器,有时又被称为弱分类器。因为基分类器的错误率要大于集成分类器。基分类器的错误,是偏差和方差两种错误之和。
偏差主要是由于分类器的表达