Bagging 和 Boosting都属于集成学习(ensemble learning)方法,即通过构建并结合多个学习器来完成学习任务。例如对于分类问题,我们可以学习多个弱分类器,然后根据一定的规则对各个弱分类器的结果进行整合,得到最终的分类结果。
1. Bagging
Bagging是指采用Bootstrap(有放回的均匀抽样)的方式从训练数据中抽取部分数据训练多个分类器,每个分类器的权重是一致的,然后通过投票的方式取票数最高的分类结果最为最终结果。
Bagging同样可以处理回归(regression)问题,只需将投票的方式改为求均值,即将各个弱分类器的结果的平均值作为最终结果。
2.Boosting
Boosting是一族可将弱学习器提升为强学习器的算法。其工作机制为:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。