1. 集成学习
集成学习(ensemble learning)是现在非常火爆的机器学习方法。它本身不是一个单独的机器学
习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集
成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有
的机器学习领域都可以看到集成学习的身影。
集成学习通过建立几个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型,各自独
立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何⼀个单分类的做出预测。
只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的。
对于训练集数据,通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强
学习器,以达到博采众长的目的。集成学习有两个主要的问题需要解决,第一是如何得到若干个个
体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习器。
2. 集成学习例子
对下面实例D1进行分类,得到两个分类结果h1和h2:
对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能:
定义:集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得
比单个学习器更好的学习效果的一种机器学习方法。如果把单个分类器比作一个决策者的话,集成
学习的方法就相当于多个决策者共同进行一项决策。
在概率近似正确(PAC)学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能
够学习它,如果正确率很高,那么就称这个概念是强可学习(strongly