集成学习（1）--Boosting与AdaBoost

最新推荐文章于 2025-10-19 22:55:52 发布

原创最新推荐文章于 2025-10-19 22:55:52 发布 · 286 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

36 篇文章

订阅专栏

本文深入探讨了集成学习的基本原理，介绍了同质与异质集成的区别，以及强可学习和弱可学习的概念。重点解析了AdaBoost算法，包括其工作流程、数学推导和优缺点，展示了如何通过结合弱学习器提升整体模型性能。

个体与集成

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等。

下图是集成学习的一般结构：先产生一组“个体学习器”再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生，如C4.5决策树算法、BP神经网络等。集成时只包含同种类型的个体学习器，这样的集成是“同质”的，个体学习器也称为基学习器；集成时包含不同学习算法，这样的集成是“异质”的，个体学习器一般不叫基学习器，通常叫“组件学习器”。

在这里插入图片描述

这里还有强可学习和弱可学习的概念。在概率近似正确的框架（PCA）下，一个概念如果存在一个多项式的学习算法能够学习它，并且正确率很高，那这个概念是强可学习的；一个概念，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那这个概念是弱可学习的。后来，证明这两个概念是等价的。

于是，如果能够发现弱可学习算法，就可想办法将其提升为强可学习算法。其实就是上图说的集成。集成时一般的想法是强弱结合后，新的要比弱的强，但比强的弱，怎么结合能获得比单一学习器更好的性能呢？经验表明：要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的准确性，并且要有“多样性”。

误差分析（下限）

考虑二分类问题 $\in \{-1, +1\}$ 和真实函数 $f$ ,假定基分类器的错误率为 $ϵ\epsilon$ ，即对每个基分类器 $h_i$ 有

$P(hi(x)≠f(x))=ϵP(h_i(x) \ne f(x)) = \epsilon$

假设通过简单投票法结合基分类器，超过半数正确，则集成分类正确

$H(x)=sign(∑i=1Thi(x))H(x)=sign(\sum_{i=1}^T h_i(x))$

假设基分类器相互独立，由Hoeffding不等式可知，集成的错误率是

$\ne f(x))=\sum_{k=0}^{\lfloor \frac{T}{2} \rfloor} \tbinom{T}{k} (1-\epsilon)^k \epsilon^{T-k} \le exp(-\frac{1}{2}T(1-2\epsilon)^2)$

上式表明，随着集成中个体分类器数目的增大，集成的错误率将指数下降。

但上述分析中分类器独立的假设很难成立，因为个体学习器都是为解决同一个问题训练出来的，不可能独立。一般的，准确性很高以后，要增加多样性就要牺牲准确性。

根据个体学习器的生成方式，集成学习方法大致分两类，个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者代表是Boosting, 后者代表是Bagging和随机森林。

Boosting

Boosting是一族可将弱学习器提升为强学习器的算法，机制是：先从初始训练集训练处一个基学习器，再根据学习器的表现对样本分布进行调整，使得先前基学习器做错的样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直到基学习器数目达到事先指定的值T，最终将这T个学习器进行加权结合。

Boosting算法中最著名的是AdaBoost，描述如下文，其中 $yi∈{−1,+1}y_i \in \{-1,+1\}$ , $f$ 是真实函数。

AdaBoost算法有多种推导方式，较容易理解的是“加性模型”，即基学习器的线性组合

$H(x)=∑t=1Tαtht(x)H(x)=\sum_{t=1}^T \alpha_t h_t(x)$

来最小化指数损失函数

$ℓexp(H∣S)=Ex∼S[e−f(x)H(x)](1)\ell_{exp}(H|S)=E_{x \sim S}[e^{-f(x)H(x)}] \tag{1}$

S 表示 x 的概率分布。

——————————————————————————————————————————

输入：训练集 $D={(x_1, y_1),(x_2, y_2),...(x_m, y_m)}$

基学习算法 G

训练轮数 T

过程：

1： $S1(x)=1mS_1(x) = \frac{1}{m}$ ，初始化样本权重

2：for t = 1,2,…T do

3: $h_t = G(D, S_t)$ , 基于分布 $S_t$ 从数据集D中训练出分类器 $h_t$

4: $ϵt=Px∼S(ht(x)≠f(x))\epsilon_t=P_{x \sim S}(h_t(x) \ne f(x))$ 估计 $h_t$ 的误差

5 if $ϵt>0.5\epsilon_t \gt 0.5$ then break ，下面有解释

6: $αt=12ln(1−ϵtϵt)\alpha_t = \frac{1}{2} ln(\frac{1-\epsilon_t}{\epsilon_t})$ ,确定分类器 $h_t$ 的权重

7: $ht(x)≠f(x)=St(x)exp(−αtf(x)ht(x))ZtS_{t+1}(x)=\frac{S_t(x)}{Z_t} \times \begin{cases} exp(-\alpha_t),if\ \ h_t(x)=f(x)\\exp(\alpha_t),if\ \ h_t(x) \ne f(x)\end{cases}=\frac{S_t(x)exp(-\alpha_t f(x) h_t(x))}{Z_t}$ ,更新样本分布，其中 $Z_t$ 是规范化因子，以确保 $S_{t+1}$ 是一个分布

8: end for

输出： $H(x)=sign(∑t=1Tαtht(x))H(x)=sign(\sum_{t=1}^T \alpha_t h_t(x))$

——————————————————————————————————————————

式子（1）对H(x)求偏导

$∂ℓexp(H∣S)∂H(x)=−e−H(x)P(f(x)=1∣x)+eH(x)P(f(x)=−1∣x)(2)\frac{\partial{\ell_{exp}(H|S)}}{\partial{H(x)}}=-e^{-H(x)}P(f(x)=1|x)+e^{H(x)}P(f(x)=-1|x) \tag{2}$

令上式等于0

$H(x)=12lnP(f(x)=1∣x)P(f(x)=−1∣x)H(x)=\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)}$

因此有

$=argy∈{−1,+1}maxP(f(x)=y∣x)sign(H(x))=sign(\frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)}) \\\ =\begin{cases}1,P(f(x)=1|x) \gt P(f(x)=-1|x)\\-1,P(f(x)=1|x) \lt P(f(x)=-1|x)\end{cases} \\\ =arg_{y \in \{-1,+1\}}max P(f(x)=y|x)$

AdaBoost算法在获得 $H_{t-1}$ 之后样本分布将进行调整，使下一轮的基学习器 $h_t$ 能纠正 $H_{t-1}$ 的一些错误，理想的 $h_t$ 能纠正 $H_{t-1}$ 的全部错误，即最小化

$ℓexp(Ht−1+ht∣S)=Ex∼S[e−f(x)(Ht−1+ht∣S)]\ell_{exp}(H_{t-1}+h_t|S) = E_{x \sim S}[e^{-f(x)(H_{t-1}+h_t|S)}]$

理想的基学习器

$ht(x)=arghminℓexp(Ht−1+ht∣S)h_t(x)=arg_h min\ell_{exp}(H_{t-1}+h_t|S)$

Boosting算法要求基学习器能对特定的数据分布进行学习，可通过“重赋权法”实施，即在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重。对无法接受带权样本的基学习算法，可通过“重采样法”来处理，即在每一轮学习中，根据样本分布对训练集重新进行采样，用新的数据集进行训练。

Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件（算法第5行，检查当前基学习器是否比随机猜测好），一旦条件不满足，则当前基学习器即被抛弃，且学习过程停止。此时，学习轮数没有达到，可能因基学习器数量少而影响最终效果。重采样可获得重启动机会以避免训练过程过早停止。