集成学习_AdaBoost与Bagging

最新推荐文章于 2025-05-05 09:34:57 发布

SuperBigFive

最新推荐文章于 2025-05-05 09:34:57 发布

阅读量224

点赞数

分类专栏：机器学习文章标签：集成学习机器学习算法

本文链接：https://blog.youkuaiyun.com/CM_20030210/article/details/131050533

版权

6 篇文章

订阅专栏

集成学习通过构建多个学习器并结合其结果来提升性能。文中介绍了两种主要的集成策略：AdaBoost，它是一种串行结构，通过调整样本权重让分类错误的样本得到更多关注；以及Bagging，采用并行训练和自主采样法。此外，讨论了不同投票法和加权平均法在集成分类器中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集成学习：集成学习通过构建并结合多个学习器来完成学习任务，先产生一组“个体学习器”，再用某种策略将它们结合起来。
个体学习器：分为基学习器与组件学习器。同质集成中的个体学习器称为基学习器，异质集成中的个体学习器称为组件学习器。所谓同质异质即指个体学习器的学习算法是否相同。
集成分类的输出： $(\sum_{i = 1}^{T}{h_i(x)})$ ，其中 $h_i(x)$ 表示第 $i$ 个个体分类器对样本 $x$ 的预测结果 $s i g n (x)$ 为符号函数。集成学习中限制样本集合 $D = \{(x_i, y_i)\}$ 中所有 $y_i$ 满足 $y_i \in \{-1, 1\}$ ， $h_i(x)$ 同样如此。
假设个体分类器的错误率相互独立（且均为 $\epsilon$ ），由 $Hoe ffd in g$ 不等式得到集成的错误率：
$\neq f(x)) \leq \exp(-\frac {1}{2}T(1 - 2\epsilon)^2)$
其中 $T$ 为个体分类器的数目。

$A d a B oos t$ 算法是 $B oos t in g$ 算法的一种，该算法的训练结构是一种串行结构，每轮训练一个个体分类器，同时为训练集中每个样本指派了一个权重 $w_{t, i}$ ，表示第 $t$ 轮训练时第 $i$ 个样本的权重；
通过提高上一轮中分类错误的样本的权重，使得上一轮中分类错误的样本在新一轮训练中得到更加多的关注，从而使得各个体人分类器之间“取长补短”，达到良好的集成效果；
除了样本有权重以外，每个个体分类器同样也有一个权重 $\alpha_t$ ，表示其在最终表决时的作用大小，取决于训练时的误分率 $\epsilon_t$ ；
所有个体分类器的线性加权即为最终输出。

具体的算法步骤如下所示：

初始化各样本权重： $w_{1, i} = \frac {1}{N}$ ，其中 $N$ 为样本总数；
基于样本权重和学习算法，得到第 $t$ 轮产生的个体分类器 $G_t(x)$ ；
计算误差率 $e_t = \sum_{i = 1}^{N}w_{t, i}I(G_t(x_i) \neq y_i)$ ；
计算弱学习器的权重 $\alpha_t = \frac {1}{2}\ln \frac {1 - e_t}{e_t}$ ；
更新样本权重 $w_{t + 1, i} = w_{t, i} · \exp (-\alpha_t y_i G_t(x_i)) /Z_t$ ；
其中 $Z_t$ 为归一化因子，因为要满足 $\sum_{i = 1}^{N}{w_{t + 1, i}} = 1$ ，所以自然地 $Z_t = \sum_{i = 1}^{N}w_{t, i} · \exp (-\alpha_t y_i G_t(x_i))$ ；
反复迭代，直到满足停机条件。

最终分类器：
$sign(\sum_{i = 1}^{T}\alpha_iG_i(x))$

$B a gg in g$ 算法的训练结构时并行的，各个个体分类器的依赖关系并不大，不像 $A d a B oos t$ 算法那样当前分类器的样本权重取决于上一个个体分类器及其误分率；
采用了自主采样法，每次随机采样操作从包含 $m$ 个样本的数据集中随机取出一个样本，将样本放入采样集中，再把样本放回初始数据集，经过 $m$ 次是这样的随机采样操作，得到一个含 $m$ 个样本的采样集；
利用相对多数投票法组合 $T$ 个个体分类器（个体分类器没有设置权重）

投票法
- 绝对多数投票法：票数占一半以上；
- 相对多数投票法：票数最多；
- 加权投票法：加权后票数最多。
平均法
- 简单平均法：对各个分类器的输出结果取平均值；
- 加权平均法：各个分类器的线性加权。
学习法
- 比较有趣的一种策略。假设已经训练出了 $T$ 个基分类器 $G_t$ ，数据集 $D$ 中共 $m$ 个样本；
- 对于每个样本，把 $T$ 个基分类器的输出结果拼接成一个向量，再加上样本的标签值，作为新的数据集 $D^{'}$ ，采用某种学习算法（称为次级学习算法，基分类器用的称为初级学习算法），得到个新的分类器 $G^{'} (x)$ ；
- 对于待测样本 $x$ ，求出 $G_1(x), G_2(x), ... , G_T(x))$ 作为分类器 $G^{'} (x)$ 的输入，其输出结果即为预测结果。