文章目录
Ensemble Learning: Bagging, Boosting, Stacking
基本概念
元算法(meta-algorithm),所谓“三个臭皮匠,顶个诸葛亮”,在做决策时,通常会听取多个专家而不只是一个人的意见。例如,医院在遇到罕见病例时会组织多个专家进行临床会诊,共同分析病例以给出手术方案。这就是元算法背后的思路,元算法也叫集成方法(ensemble method)。
集成学习(Ensemble Learning),就是使用一系列学习器进行学习,并使用某种规则将各个学习器的结果进行整合,从而获得比单个学习器效果更好的学习效果的一种方法。集成学习可以用于分类问题,回归问题,特征选取,异常点检测等的集成,本文采用分类进行说明。
弱分类器,weak classifier, 是指分类器仅能对少量样本进行正确分类,其分类效果仅略优于随机猜测。
强分类器,strong classifier, 是指对样本分类的正确率很高的分类器。
有放回采样,sampling with replacement。对于n个样本的训练集T进行采样,每次采用得到的样本被放回原训练集T中,下次对训练集T进行采样时该样本仍有可能被采集到。
无放回采样,sampling without replacement。对于n个样本的训练集T进行采样,每次采样得到的样本不再被放回原训练集T中,以后对训练集T进行采样时,这个样本以后都不会被采样到。
集成学习的条件
通过集成学习提高分类器的整体泛化能力有以下两个条件:
- 基分类器之间具有差异性。如果使用的是同一个分类器集成,集成分类器的性能是不会有提升的