Adaboost算法揭秘

最新推荐文章于 2024-05-04 11:52:32 发布

原创最新推荐文章于 2024-05-04 11:52:32 发布 · 1.1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #机器学习 #数据挖掘

本文介绍了Boosting算法，特别是AdaBoost模型，它通过串行训练弱学习器并调整数据权重来提高分类性能。文章详细阐述了算法流程，涉及权重更新、错误率衡量以及最小化指数误差的方法。

Boosting基本介绍

Boosting算法是指组合多个基分类器，得到比单个分类器更强性能的一类技术，本文介绍使用最广泛的AdaBoost模型，它的全名是“adaptive boosting”，即“自适应提升模型”。Boosting能得到很好的结果，即便基分类器只是比随机猜测好一点点，有时候也叫基分类器为“弱学习器”。Boosting最早被设计为分类问题，但也能扩展到回归问题。

Boosting和bagging最主要的区别是，前者的基分类器被串行训练，即每个基分类器用加权形式的数据集训练，其中每个数据样本的权重系数依赖前一个分类器的性能。事实上，被前一个基分类器错分的数据点在下一个基分类器的训练中会被给予更大的权重。一旦所有的基分类器被训练完成，它们的预测会通过某种加权投票机制进行组合，得到最终预测结果。

Boosting的完整训练和预测过程如下图所示：

(图1)

其中 $y_{m}(x)$ 表示多个基分类器， $\left \{ w_{n}^{(m)} \right \}$ 表示加权形式的训练集，蓝色箭头表示某个基分类器在对应的训练集上训练，绿色箭头表示权重 $w_{n}^{(m)}$ 依赖前一个基分类器 $y_{m-1}(x)$ 的性能。当所有基分类器训练结束，它们被加权求和并符号化得到最终分类器 $Y_{M}(x)$ ，用红色箭头表示。

对于二分类问题，训练数据由输入向量 $x_{1},x_{2},...x_{N}$ 和二值目标变量 $t_{1},t_{2},...t_{N}$ 构成，其中 $t_{n}\in \left \{ -1,1 \right \}$ 。每个数据点被赋予一个权重系数 $w_{n}$ ，初始值全为 $1/N$ 。我们假设，我们有一个可行的方法来基于加权的数据训练基分类器，得到基分类器(也叫函数) $y(x)\in \left \{ -1,1 \right \}$ 。在算法的每个阶段，AdaBoost使用一个数据集训练新的分类器，其中数据集的权重系数根据前一个分类器的性能进行调整，准则是“关注错分”，即被错误分类的数据点具有更大的权重。最后，当所有基分类器被训练结束，它们被组合构造得到AdaBoost。具体算法如下：

AdaBoost算法

1. 初始化数据点权重系数 $\left \{ w_{n}\right \}$ ，其中对于每个 $n=1,2,...,N$ ，都有 $w_{n}^{(1)} =1/N$

2. 对于每个 $m=1,2,...,M$ :

a)训练基分类器 $y_{m}(x)$ ，其中损失函数为如下加权函数：

(式1)

上式中 $I(y_{m}(x_{n})\neq t_{n})$ 是一个指示函数，它在满足 $y_{m}(x_{n})\neq t_{n}$ 条件时取1，其余取0.

b)计算如下权重归一化指标(表示某种错误率):

(式2)

然后利用 $\epsilon _{m}$ 的对数几率计算 $\alpha _{m}$ ，如下：

(注意：对数几率指的是，一件事情发生概率p与不发生概率1-p的比值，然后取log)

(式3)

c)更新数据权重系数，即利用 $w_{n}^{(m)}$ 计算 $w_{n}^{(m+1)}$ ，公式如下：

(式4)

可以看到，当上一次预测错误，那么 $I$ 函数取1， $exp$ 函数将大于1，权重将增大。

而当上一次预测正确， $I$ 函数取0，而 $exp(0)=1$ ，权重没有变化。

（说明：在有的算法实现中，若上一次预测正确， $I$ 函数取-1，权重将减小。）

3. 利用最终模型进行预测，预测结果 $Y_{M}(x)$ 的公式与图1一致，为：

(式5)

总结一下：第一个基分类器 $y_{1}(x)$ 用所有相等的权重系数 $w_{n}^{(1)}$ 训练得到。式4是权重系数的迭代过程，当上一次预测错误， $w_{n}^{(m)}$ 将增加，反之， $w_{n}^{(m)}$ 将相对下降。这意味着后续分类器将被迫关注那些被前面分类器错分的数据点。当某数据点被多个基分类器连续错分，它的权重将持续增大。式2中的指标 $\epsilon _{m}$ 是对某个基分类器的加权错误率的测量。式3定义的权重系数 $\alpha _{m}$ 将会给能正确分类的分类器更大的权重，当在式5中计算整体输出的时候。两个权重：分类器权重 $\alpha _{m}$ 和数据样本权重 $w_{n}^{(m)}$ ，是“我中有你，你中有我”、“互相依赖，交织迭代”的关系。

利用Adaboost算法的30个数据点的分类实验如下图所示：

(图2)

每个基分类器对输入变量定义了阈值(threshold)。每个基分类器其实是只有一个节点的决策树，也叫做决策树桩，即decision stumps。每个决策树桩根据是否有输入的特征值超过某个阈值，来决定如何划分决策空间，为了简单起见，每个划分表面是平行于坐标轴的线性决策边界。每个方形图中的m表示到目前为止已经训练好的基分类器的个数，黑色虚线表示最新的基分类器的决策边界，绿色实线表示集成的决策边界。数据点用圆形表示(红色和蓝色两种)，而它的半径表示赋予的权重大小。可以看到，被m=1分类器错分的数据点，在m=2分类器中的权重变大了。

最小化指数误差

Boosting最早来自统计学习理论，它有一个通用误差的上界。但是这些上界被证实太宽松了，以至于没有什么实用价值。Boosting的实际性能远比这些上界所能提供的更好。有一位名叫Friedman的大神曾在2000年给出过一个与众不同但非常简单的对Boosting的理解，是从对指数误差函数的最小化角度出发的。考虑如下指数误差函数：

(式6)

其中 $f_{m}(x_{n})$ 是从对基分类器 $y_{l}(x)$ 的线性组合角度定义得到的集成分类器，其公式如下：

(式7)

而 $t_{n}\in \left \{ -1,1 \right \}$ 是训练集的目标值(即标记值)。我们的目标是最小化E函数，其中把基分类器的权重系数 $\alpha _{l}$ 和每个基分类器 $y_{l}(x)$ 的参数看成变量。我们不需要做全局性的误差函数最小化，我们只需要假设基分类器 $y_{1}(x),...,y_{m-1}(x)$ 是固定的，当然也包括它们的系数 $\alpha _{1},...,\alpha _{m-1}$ ，然后只对 $\alpha _{m}$ 和 $y_{m}(x)$ 做最优化即可。为了把基分类器 $y_{m}(x)$ 区分开来，我们可以将误差函数改写成如下：

(式8)

其中第一步是将式6根据式7展开，将其拆分成 $f_{m-1}(x_{n})$ 和 $y_{m}(x)$ 两项。第二步将exp中两项相减的形式拆成相乘的形式，并把第一项记为权重 $w_{n}^{(m)}$ ，即： $w_{n}^{(m)}=exp\left \{ -t_{n} f_{m-1}(x_{n}) \right \}$ ，我们可以将其看成常量，因为我们只是在优化 $\alpha _{m}$ 和 $y_{m}(x)$ 。我们将被 $y_{m}(x)$ 分类器正确分类的数据点记为 $\tau _{m}$ ，将错误分类的数据点记为 $M_{m}$ ，那么误差函数可改写为：

(式9)

其中第一步是根据式8展开，并基于如下事实，若分类正确，那么无非以下两种情况： $t _{n}=-1$ ，且 $y_{m}(x_{n})=-1$ ，或 $t _{n}=1$ ，且 $y_{m}(x_{n})=1$ ，无论哪种，都有 $t_{n}\, y_{m}(x_{n})=1$ ，若错误分类，那么同样有两种情况，但都满足 $t_{n}\, y_{m}(x_{n})=-1$ ，那么根据式8，就能直接把它拆分成正确分类和错误分类两项之和。第二步，一个简单的验证方法是倒推，把对所有样本的求和拆分成正确分类和错误分类的情况，当错误分类，即 $y_{m}(x_{n})\neq t_{n}$ ，则 $I(y_{m}(x_{n})\neq t_{n})=1$ ，那么第一项就是 $(e^{\alpha _{m}/2}-e^{-\alpha _{m}/2})\sum_{n\in M_{m}}w_{n}^{(m)}$ ，当正确分类，即 $y_{m}(x_{n})= t_{n}$ ，则 $I(y_{m}(x_{n})\neq t_{n})=-1$ ，那么第一项就是 $(-e^{\alpha _{m}/2}+e^{-\alpha _{m}/2})\sum_{n\in \tau _{m}}w_{n}^{(m)}$ ，因此这两种情况之和就比第一步的结果多了 $(-e^{-\alpha _{m}/2})\sum_{n\in M_{m}}w_{n}^{(m)}$ 和 $(-e^{\alpha _{m}/2})\sum_{n\in \tau _{m}}w_{n}^{(m)}$ 两项，与 $(e^{-\alpha _{m}/2})\sum_{n=1}^{N}w_{n}^{(m)}$ 抵消。

当我们让式9对 $y_{m}(x_{n})$ 求最优化，注意此时第二项是常量，而第一项 $\sum$ 求和之前的乘法因子不影响最优点的位置，因此整体相当于在优化式1。类似的，当把 $\alpha _{m}$ 看成变量进行优化，我们就得到了 $\alpha _{m}$ 的表达式，即式3，其中 $\epsilon _{m}$ 的表达式由式2给出，过程省略。

根据式8可得，当确定了 $\alpha _{m}$ 和 $y_{m}(x)$ ，就能用以下公式迭代得到数据点的新权重：

(式10)

现在考虑如下事实公式：

(式11)

（当 $y_{m}(x_{n})\neq t_{n}$ ，那么 $I(y_{m}(x_{n})\neq t_{n})=1$ ，等式右边为-1，左边为1*(-1)或(-1)*1，也是-1，等式成立；当 $y_{m}(x_{n})= t_{n}$ ，那么 $I(y_{m}(x_{n})\neq t_{n})=0$ ，等式右边为1，左边为1*1或(-1)*(-1)，也是1，等式成立。）