1、集成学习
1.1 简介
在学习树模型的时候,经常听到有关于集成学习的概念。集成学习在机器学习中有较高的准确率,不足之处就是模型的训练过程比较复杂,效率不是很高;主要分为两种类型:
(1)基于boosting思想的算法,例如:Adaboost、GDBT和XGBOOST。
(2)基于Bagging思想的算法,经典的就是随机森林算法
1.2 集成学习的思想
首先说明一下集成学习的主要思想,俗话说,三个臭皮匠,顶个诸葛亮;集成学习利用了类似的思想,通过利用一定的手段学习出多个弱分类器,然后通过组合的方式进行投票,构建一个等效于较强分类器的公共预测模块。核心思想就是如何训练处多个弱分类器以及如何将这些弱分类器进行组合。其中Boosting是采用串行的方式,而Bagging采用的是并行的方式。
1.3、弱分类器选择
一般采用弱分类器的原因在于将误差进行均衡,通常有同质学习器和异质学习器两种选择方式。常用的弱分类器可以采用误差率计较小的,比如说LR、SVM等。
1.4、多个分类器的训练方法
可以采用随机选取数据进行分类器的训练(例如随机森林),也可以采用不断的调整错误分类的训练数据的权重生成新的分类器(例如Adaboost)。
1.5、弱分类器之间的组合方式
若分类器之间的组合方式一般有简单多数投票、权重投票,贝叶斯投票,基于D-S证据理论的整合,基于不同的特