统计学习方法-Adaboost训练误差有界定理

最新推荐文章于 2023-08-21 12:48:35 发布

原创最新推荐文章于 2023-08-21 12:48:35 发布 · 967 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文推导了AdaBoost算法的训练误差界，并给出了详细的数学证明过程。通过将最终分类器的训练误差与每个弱分类器的归一化因子关联起来，证明了训练误差的上界。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定理（AdaBoost的训练误差界）： AdaBoost算法最终分类器的训练误差界为：
$\begin{aligned} \frac{1}{N}\sum_{i=1}^N \mathtt{I} (G(x_i) \neq y_i) \leq \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i))=\prod_{m}Z_m \end{aligned}$
这里的 $G(x),f(x),Z_m$ ，在统计学习方法的中定义。

Proof:

这其中： $G(x)=f(x)=∑mαmGm(x)G(x)=f(x)=\sum_{m}\alpha_m G_m(x)$ ，都表示由AdaBoost方法得到的最终分类器。 $Zm=∑i=1Nwmiexp(−αmyiGm(xi))Z_m=\sum_{i=1}^N w_{mi} \mathtt{exp}(-\alpha_m y_i G_m(x_i))$ ，表示第 $m + 1$ 个弱分类器的数值分布的归一化因子。这其中： $wmi=wm−1iZm−1exp(−αm−1yiGm−1(xi))w_{mi}= \frac{w_{m-1i}}{Z_{m-1}} \mathtt{exp}(-\alpha_{m-1} y_i G_{m-1}(x_i))$ 表示第 $m$ 分类器的数据分布中第 $i$ 个数值的分布值； $αm=12log1−emem\alpha_m = \frac{1}{2}\mathtt{log}\frac{1-e_m}{e_m}$ ，表示第 $m$ 个弱分类器的系数，其中 $em=∑i=1NP(Gm(xi)≠yi)=∑i=1NwmiI(Gm(xi)≠yi)e_m = \sum_{i=1}^N \mathbb{P}(G_m(x_i) \neq y_i)=\sum_{i=1}^N w_{mi} \mathtt{I}(G_m(x_i) \neq y_i)$ 表示分类错误率。

此时，我们看上面的定理，他是用所有的归一化因子来作为分类误差的上界。

首先：

$G(xi)≠y(xi)→y(xi)f(xi)<0→exp(y(xi)f(xi))<1→exp(−y(xi)f(xi))>1≥I(G(xi)≠f(xi)G(x_i) \neq y(x_i) \to y(x_i)f(x_i) < 0 \to \mathtt{exp}(y(x_i)f(x_i)) < 1 \to \mathtt{exp}(-y(x_i)f(x_i)) > 1 \geq \mathtt{I}(G(x_i) \ne f(x_i)$ .

那么就可以得到：

$1N∑i=1NI(G(xi)≠yi)≤1N∑i=1Nexp(−yif(xi))\frac{1}{N}\sum_{i=1}^N \mathtt{I} (G(x_i) \neq y_i) \leq \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i))$ 。

下面证明定理右边的等式成立：
$\begin{aligned} \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i)) &=\frac{1}{N}\sum_{i=1}^N \mathtt{exp}(-y_i \sum_{m=1}^M \alpha_m G_m(x_i)) \\ & = \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(\sum_{m=1}^M y_i \alpha_m G_m(x_i)) \\ & = \frac{1}{N}\sum_{i=1}^N \prod_{m=1}^M \mathtt{exp}(y_i \alpha_m G_m(x_i)) \end{aligned}$
由上述式子，可知 $wm+1iZm=wmiexp(−αmyiGm(xi))w_{m+1i}Z_m = w_{mi} \mathtt{exp}(-\alpha_m y_i G_m(x_i))$ ，并且在Adaboost中 $∑iwmi=1\sum_i w_{mi}=1$ 。则有：
$\begin{aligned} \frac{1}{N}\sum_{i=1}^N\mathtt{exp}(-y_i f(x_i)) & = \frac{1}{N}\sum_{i=1}^N w_{1i} \prod_{m=1}^M \mathtt{exp}(y_i \alpha_m G_m(x_i))\\ & = Z_1 \frac{1}{N}\sum_{i=1}^N w_{2i} \prod_{m=2}^M \mathtt{exp}(y_i \alpha_m G_m(x_i))\\ & = \cdots\\ & = \frac{1}{N}Z_1Z_2\cdots Z_M\sum_{i=1}^m 1\\ & = \frac{1}{N}Z_1Z_2\cdots Z_MN\\ & = \prod_{m=1}^MZ_m \end{aligned}$
综上，定理得证。