一、集成学习
集成学习分为3个步骤:
(1)找到误差互相独立的基分类器。
(2)训练基分类器
(3)合并基分类器的结果。(voting和stacking)
首先要说一下,对集成学习的理解,俗话说的好三个臭皮匠抵个诸葛亮,单个预测器的预测效果可能不是很好,但是结合多个预测器,预测的性能就会有所提高。集成学习是大类模型融合策略和方法的统称,包含多种集成学习思想。
二、voting(投票法)
现实生活中的投票原则就是少数服从多数,在集成学习中主要用于解决分类问题的一种策略,投票法则分为硬投票分类和软投票分类。
2.1硬投票分类思想
例如有5个基分类器,三个的分类为1,两个的分类为2,那最终输出的结果就是类别1,而硬投票分类器的结果就是显示标签值。
2.2软投票分类思想
而软投票分类器,最终的分类结果输出的是投票中概率最大的概率值。
三、Bagging
Bagging方法在训练过程当中,各个基分类无强依赖关系,可以进行并行训练,在基分类器选择上只能选择单一基分类器集成多个。它的最经典的代表算法就是随机森林。Bagging方法类似于一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,可以不同,也可以部分重叠。但由于个体之间存在差异,最终做出的判断不会完全相同。在最终决策时,每个个体单独做出判断,在通过投票的方式做出最后的集体决策。Bagging采用分而治之的方法,通过对训练样本多次采样,并分别训练出多个不同的模型,然后综合,来减少集成分类器的方差。
3.1随机森林算法(RandomForest)
随机森林以决策树为基学习器,包含主要的四个部分:
(1)随机选择样本(放回抽样)</