1. 定义
集成学习(Ensemble learning)通过构建多个个体学习器,并将其以某种结合策略集成起来,完成学习任务。
集成学习常可获得比单一学习器显着优越的泛化性能。
2. 概述
集成学习的一般结构为:

如果集成中只包含同种类型的个体学习器,则这样的集成是同质的;相对应的,这样的个体学习器被称为“基学习器”,相应的学习算法被称为“基学习算法”。
如果集成中包含不同类型的个体学习器,则这样的集成是异质的;对应的个体学习器被称为“组件学习器”或“个体学习器”,不再具有基学习算法。
集成学习中使用最广泛的个体学习器是CART决策树和神经网络模型。
我们常说集成学习框架中的基学习器是弱学习器,弱学习器是偏差高(在训练集上准确度低),方差小(防止过拟合能力强)的模型,但并不是所有集成学习框架中的个体学习器都是弱学习器。Bagging中的个体学习器是强学习器(偏差低方差高),Boosting中的基学习器是弱学习器。
目前的集成学习方法大致可以分为两大类,第一类是个体学习器存在强依赖关系,必须串行生成的序列化方法,如Boosting。第二类是个体学习器之间不存在强依赖关系,可同时生成的并行化方法,如Bagging和随机森林,会在【机器学习】集成学习——Bagging与随机森林原理与算法描述中单独讲到。
3. 结合策略
集成假设包括个基学习器
,常见的结合策略如下:
3.1 平均法
对回归任务,最常见的结合策略是平均法。
(1)简单平均法
(2)加权平均法
其中,为个体学习器
的权重,且
。
一般而言,在个体学习器性能相差较大时宜使用加权平均法,而在个体学习器性能相近时宜使用简单平均法。
3.2 投票法
对分类任务来说,最常见的结合策略是投票法。
假设学习器将预测出一个标记,这个类别标记属于标记集合
中的一个。
在样本
上的预测输出表示为一个
维向量
。
(1)绝对多数投票法(多数表决)
即若某类别标记得票过半数,则预测结果为该类别,否则拒绝预测。
(2)相对多数投票法(multiple voting)
即预测结果为得票数最多的类别,如果同时有多个标记获得最高票,则从中随机选取一个作为预测类别。
(3)加权投票法(加权投票)
为个体学习器
的权重,且
。
3.3 学习法
一种更为强大的结合策略是“学习法”,即通过另一个学习器来进行结合。Stacking是学习法的一种典型代表,它本身是一种著名的集成学习方法,也可看成一种特殊的结合策略。
Stacking在【机器学习】集成学习——Stacking详解中单独讲到。
参考文献:
1.《机器学习》第八章集成学习——周志华