看完集成学习类容,最大的感受就是学习了众多机器学习算法,各有优缺点,那么如何集各大算法优点使得最优的完成任务呢?那就是本章提到的集成学习。集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。周老师书中按如下章节介绍:
1、个体与集成
“同质”:由类型相同的学习器组合而成的集成学习器,每个学习器可称为基学习器
“异质”:由类型不相同的学习器组合而成的集成学习器,每个学习器可称为“组件学习器”
集成学习通过将多个学习器进行结合,常常可以获得比单一学习器具有显著优越的泛化性能。这个对于弱学习器尤为明显。
如何获得一个好的集成学习器呢?每个个体学习器具有一定的准确性(每个学习器不能太坏)和多样性(每个学习器之间存在差异)
集成学习方法可以分为两大类:一是个体学习器间存在强依赖关系、必须串行生成序列化方法,代表有Boosting算法,二是个体学习器之间不存在强依赖关系、可同时生成的并行化方法,代表有Bagging和随机森林(Random Forest)
2、Boosting
Boosting算法是一族可以将弱学习器提升为强学习器的算法。
Boosting工作原理:先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的的训练样本在后续受到更多的关注,然后基于调整后的样本分布训练下一个基学习器,如此重复进行,知道基学习器数目达到事先指定的值 T ,最终将这