西瓜书笔记-8.集成学习

最新推荐文章于 2024-09-09 14:44:05 发布

原创

最新推荐文章于 2024-09-09 14:44:05 发布 · 667 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#西瓜书

关键词：好而不同，基学习器，Boosting，AdaBoost，Bagging，随机森林（RF），Stacking学习

8.1个体与集成

集成学习：通过构建并结合多个学习器来完成学习任务。先构建“基学习器”或“个体学习器”，再用某种策略将他们结合起来。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能，所以基学习器也成为弱学习器，集成学习研究的核心就是如何产生并结合“好而不同”的个体学习器。（个体学习器应该“好而不同”，要有一定的“准确性”，即学习器不能太坏，并且要有多样性，之间具有差异。互为补充，才可提升效果。）

根据基学习器类型是否相同，集成学习分为同质（由同种类型的个体学习器结合—基学习器）和异质（由不同类型的个体学习器结合—个体学习器、组件学习器）。

根据个体学习器的生产方式，集成学习方法大致分为两类：

（1）个体学习器间存在强依赖关系、必须串行生成的序列化方法（Boosting）

（2）个体学习器之间不存在强依赖关系、可同时生成的并行化方法（Bagging，随机森林（RF））

8.2 Boosting

Boosting是一种可将弱学习器提升为强学习器的算法，主要思想是：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后面受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

代表为AdaBoosting（《统计学习方法》上的推导和例题介绍的很详细），基本流程为：根据初始分布得到第一个基学习器f(x)，对样本进行分类判别，得到错误率e——由错误率e得到基学习器的系数a——由系数a更新样本分布D，得到集成学习器G(x),由当前得到的集成学习器再去分类判别，重复进行，直至达到基学习器数目为预定数目或者分类错误率很小为止。

Boosting算法可通过“重赋权法”实施，每轮调整数据权值。对于无法接受带权样本的基学习算法，可通过“重采样法”处理，即每轮学习中，根据样本分布对训练集重新进行采样，利用重采样而得的样本集对基学习器训练。要注意，Boosting算法每轮都会都会检查当前生成的学习器是否比随机猜测（0.5）好。一旦不比其好，则当前基学习器被抛弃，学习停止。此时或许轮数还没达到，导致最终性能不好。若用的重采样法，则可重启动，避免训练过早结束，即在抛弃当前不满足条件的基学习器后，根据当前分布重新对样本采样，基于新样本重新训练，使得预设轮数完成。