集成学习

最新推荐文章于 2022-07-18 16:05:05 发布

原创最新推荐文章于 2022-07-18 16:05:05 发布 · 612 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#集成学习

机器学习专栏收录该内容

7 篇文章

订阅专栏

集成学习分为序列化的Boosting和并行化的Bagging。Boosting通过调整样本权重或重采样，如AdaBoost、GBDT、XGBoost，连续训练基学习器，降低偏差。Bagging如随机森林通过随机抽样创建子集，训练基学习器，降低方差。随机森林在决策树训练中引入属性随机选择，增加多样性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、目前的集成学习方法大致可分为两大类；

1）个体学习器间存在强依赖关系、必须串形生成的序列化方法。

常见的有： Boosting家族的： AdaBoost 、GBDT、XGBoost

2）个体学习器间不存在强依赖关系、可同时生成的并行化方法。

常见的有：Bagging家族的：随机森林(Random Forest)

2、Boosting家族：

算法思想：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个学习器进行加权结合。

Boosting算法要求基学习器能对特定的数据分布进行学习。

1、这可通过‘重赋权重’实施，即在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重。

2、对无法接受带权重的基学习器算法，则可通过"重采样法"来处理，即在每一轮学习中，根据样本分布对训练集重新进行采样，再用重采样而得的样本集对基学习器进行训练。

一般而言，这两种做法没有显著的优劣差别。需要注意的是，‘Boosting’算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件，一旦条件不满足，则当前基学习器基即被抛弃，且学习过程停止。在此种情形，初始设置的学习轮数T也许还未达到，可能导致最终集成中只包含很少的基学习器而性能不佳。若采用”重采样“则可获得”重启动“机会避免训练过程过早停止，即在抛弃不满足条件的当前学习器之后，可根据当前分布分布重新对训练样本进行采样，再基于新的采样结果重新训练出基学习器，从而使得学习过程可以持续到预设定的T轮完成。

注：Boosting主要降低偏差。

3、Bagging与随机森林：

采用并行式集成方法学习

算法思想：

给定包含m个样本的数据集，我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集中，使得下次采样时该样本仍有可能被选中，这样，经过m次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本在采用集中多次出现，有的则从未出现。

照这样，我们可采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。这就是Bagging的基本流程。

在对预测输出进行结合时，Bagging通常对分类任务使用简单的投票法，对回归任务使用简单的平均法。

注：Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更为明显。

随机森林：

随机森林(RF)是Bagging的一个变种。Rf在以决策树为基学习器构建Bagging基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性(假定有d个属性)时是在当前结点的随机集合中选择一个最优的属性；而在RF中，对基决策树的每个结点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择最优属性用于划分。这里的参数k控制了随机性的引入程度。一般情况下，推荐值k=log2d。

随机森林中的基学习器的多样性不仅来自样本扰动，还来自随性扰动，这就使得最终集成的泛化性能可通过个体学习器之间的差异度的增加而进一步提升。