写在前面:机器学习的一个重要假设就是样本的分布和总体的分布是一致的。
多分类器进行组合的目的是为了将单个分类器(也叫基分类器 base classifier)进行组合,提升对未知样本的分类准确率,(依赖于基分类器的分类性能和基分类器之间的独立性)。构建组合分类器的逻辑视图可以用以下的图表示:
提到组合方法(classifier combination),有很多的名字涌现,如bootstraping, boosting, adaboost, bagging, random forest 等等。那么它们之间的关系如何?用下图来理清思路:
Boostrap是靴子的带子的意思,名字来源于“pull up your ownboostraps”,意思是通过拉靴子提高自己,本来的意思是不可能发生的事情,但后来发展成通过自己的努力让事情变得更好。放在组合分类器这里,意思就是通过分类器自己提高分类的性能。
Boostrap只是提供了一种组合方法的思想,就是将基分类器的训练结果进行综合分析,而其它的名称如Bagging