1. 集成学习
集成学习(ensemble learning)/ 多分类器系统(multi-classifier system)/ 基于委员会的学习(committee-based learning):通过构建并结合多个学习器来完成学习任务;
个体学习器(individual learner):集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。
集成的两种类型:
- 同质(homogeneous):个体学习器类型相同;这种情况下的个体学习器亦称基学习器(base learner),相应的学习算法为基学习算法(base learning algorithm);
- 异质(heterogeneous):包含不同类型的个体学习器;这种情况下的个体学习器成为组件学习器(component learner)。
弱学习器(Weak learner):指的是那些预测结果仅比随机猜测稍好一些的模型。例如,如果一个模型在处理有四个选项的选择题时,其正确率略高于25%,那么它就可以被视为一个弱学习器。弱学习器的关键特征是它们的正确率要高于随机猜测,但如果它们与随机猜测的正确率相等,则被称为无效学习器;如果它们的正确率低于随机猜测,则被称为坏学习器。弱学习器的正确率不能太高,否则它们就变成了强学习器。
理论上使用弱学习器集成足以获得好的性能;但实践中处于多种考虑,人们往往使用强学习器。
要获得好的集成,个体学习器应“好而不同”,即要有一定的准确性(学习器不能太坏),且要有多样性(学习器间具有差异)。
集成学习方法大致分为两类:
- 个体学习器之间存在强依赖关系、必须串行生成的序列化方法;B