机器学习算法系列（十九）-自适应增强算法（Adaptive Boosting Algorithm / AdaBoost Algorithm）——下篇

原创

已于 2022-04-13 23:25:44 修改 · 2.8k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #AdaBoost

于 2022-03-26 10:33:39 首次发布

本文深入解析AdaBoost及其多分类变体SAMME与SAMME.R算法原理，包括数学推导、Python实现及应用示例。

接上篇

AdaBoost-SAMME 算法推导

同算法步骤中的前提条件一样，假设训练集 $T = \{ X_i, y_i \}$ ， $i = 1 ， . . . ， N$ ，y 的取值有 M 种可能，h(x) 为估计器，估计器的数量为 K。
为了适应多分类问题，AdaBoost-SAMME 算法将原本为数值的标签 y 转化成一个向量的形式，如式 4-9 所示：
$\hat{y} = \left\{ \begin{array}{c} 1 & y =m\\ -\frac{1}{M-1} & y \ne m \end{array}\right. \quad m = 1,\dots,M$

式4-9

下面用一个例子来说明式 4-9 的含义，假设标签 y 可取 1，2，3，标签集 y = { 2，1，2，3 }，这时根据式 4-9 可以得到对应的转换后的标签集如式 4-10 所示：
$\begin{array}{c} y \in \{1,2,3\} \\ y = \{2,1,2,3\} \\ \hat{y}_i = \left\{ \begin{array}{c} 1 & y_i =m\\ -\frac{1}{2} & y_i \ne m \end{array}\right. \quad m = 1,2,3 \\ \hat{y} = \begin{bmatrix} -\frac{1}{2} & 1 & -\frac{1}{2} \\ 1 & -\frac{1}{2} & -\frac{1}{2} \\ -\frac{1}{2} & 1 & -\frac{1}{2} \\ -\frac{1}{2} & -\frac{1}{2} & 1 \end{bmatrix} \end{array}$

式4-10

同样将算法解释为加法模型，通过多个估计器 h(x) 加权以后得到最后的强估计器 H(x)，代价函数使用指数函数
（1）代价函数，这里比原始算法多了一个 $\frac{1}{M}$ ，是为了后面计算方便，同时 $H(X_i)$ 也是一个向量
（2）带入式 4-1 中的（3）式
（3）同样定义一个 ω，包含前一轮的强估计器等与 α 无关的值
（4）带入 ω 得到代价函数的表达式
（5）目标为找到最优的估计器权重 α 使得代价函数的取值最小
$\begin{aligned} Cost(H(x)) &= \sum_{i = 1}^{N} e^{-\frac{1}{M} \hat{y}_iH(X_i)} & (1) \\ Cost(\alpha) &= \sum_{i = 1}^{N} e^{-\frac{1}{M}\hat{y}_i(H_{k-1}(X_i) + \alpha h_k(X_i))} & (2) \\ \bar{\omega_{k,i}} &= e^{-\frac{1}{M}\hat{y}_iH_{k-1}(X_i)} & (3) \\ Cost(\alpha) &= \sum_{i = 1}^{N} \bar{\omega_{k,i}} e^{-\frac{1}{M}\hat{y}_i\alpha h_k(X_i)} & (4) \\ \alpha_k &= \underset{\alpha}{\operatorname{argmin} } \sum_{i = 1}^{N} \bar{\omega_{k,i}} e^{-\frac{1}{M}\hat{y}_i\alpha h_k(X_i)} & (5) \\ \end{aligned}$

式4-11

我们先来看下代价函数中指数的部分，即预测值与标签值的点积，下面分两种情况讨论：
当预测值与标签值相同的时候，向量中 1 的位置一致， $-\frac{1}{M-1}$ 一共有 M - 1 个，得到如下的点积结果：
$\begin{aligned} 1 + \left(M - 1\right)\left(-\frac{1}{M-1}\right)\left(-\frac{1}{M-1}\right) = \frac{M}{M-1}\\ \end{aligned}$

式4-12

当预测值与标签值不相同的时候，向量中 1 的位置不一致， $-\frac{1}{M-1}$ 一共有 M - 2 个，得到如下的点积结果：
$\begin{aligned} \left(-\frac{1}{M-1}\right) + \left(-\frac{1}{M-1}\right) + \left(M - 2\right) \left(-\frac{1}{M-1}\right)\left(-\frac{1}{M-1}\right) = -\frac{M}{(M-1)^2} \end{aligned}$

式4-13

综合上面两种情况，得到如下的结果：
$\hat{y}_ih_k(X_i) = \left\{ \begin{aligned} &\frac{M}{M-1} & \hat{y}_i = h_k(X_i) \\ &-\frac{M}{(M-1)^2} & \hat{y}_i \ne h_k(X_i) \end{aligned} \right.$