集成学习
集成学习(集成方法)是一种解决问题的思想(不是具体的算法)。操作为将若干个基本评估器(分类器&回归器)进行组合,然后使用这些基本评估器来综合对未知样本进行预测。通过这种“集思广益”的行为,比起使用单个基本评估器进行预测,集成学习具有更好的泛化能力与稳健性。
集成学习分类
集成学习可以分为以下两类:
- 平均方法
训练多个独立的基本评估器(评估器之间没有关联),然后对多个评估器的预测结果进行平均化。如果是分类任务,则使用多个评估器预测结果中,类别最多的作为预测结果。如果是回归任务,则使用多个评估器预测结果的均值作为预测结果。
平均方法通过综合考量的行为,可以有效的减少方差,因此,其预测结果通常可以优于任何一个基本评估器。 - 增强方法
多个基本评估器是按顺序训练的,然后将若干个模型(通常是弱评估器)进行组合,进而产生一个预测能力强的模型。与平均方法不同,增强方法的多个基本评估器不是独立的,后续评估器需要依赖于之前评估器,训练过程中,会试图减少组合之后评估器的偏差。
集成学习效果
我们以二分类为例,如果存在n个分类器,每个