集成学习与Adaboost算法

最新推荐文章于 2024-01-11 10:13:56 发布

知道不_zkl

最新推荐文章于 2024-01-11 10:13:56 发布

阅读量507

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_41500849/article/details/80399259

机器学习专栏收录该内容

28 篇文章

订阅专栏

本文介绍集成学习的概念，对比Bagging和Boosting的特点，并详细推导Adaboost算法的关键步骤，包括损失函数定义、权重更新机制及基学习器的求解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文简要介绍了集成学习，说明了Boosting和Bagging的主要特点。接着，基于周志华的《机器学习》中关于Adaboost算法，详细推导了Adaboost算法，并给出了关键步骤的解释，更方便初学者的理解。

集成学习

集成学习通过构建并结合多个学习器来完成学习任务，有是也称为多分类器系统，基于委员会的学习等。

这里写图片描述

上图显示出集成学习的一般结构：先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生，例如BP神经网络等。此时，集成中只包含同种类型的个体学习器，这样的集成是同质的，同质集成中的个体学习器也称基学习器，相应的学习算法称为基学习算法，集成也可包含不同类型的个体学习器，例如同时包含决策树和神经网络，这样的集成是异质的。异质集成不再有基学习算法，相应的个体学习器不再称为基学习器，常称为组件学习器。

以二分类问题 $y \in\{-1,+1\}$ 和真实函数 $f$ ，假定基本分类器的错误率为 $\epsilon$ ,即对每个基分类器 $h_i$ ,有:

P (h i (x) \neq f (x)) = ϵ (1)

$P(h_i(x) \ne f(x))=\epsilon \tag1$
假设集成通过简单投票法结合

TT $T$ 个基分类器，若有超过半数的基分类器正确，则集成分类就正确：

\begin{matrix} (2) & H (x) = s i g n (\sum_{i = 1}^{T} h_{i} (x)) \end{matrix}

$H(x) = sign(\sum \limits _{i=1}^T h_i(x)) \tag 2$
说明：

$f$ 是真实函数，产生的结果范围是 $\{-1,+1\}$ ，分类结果是真实的，准确的。
$h_i(x)$ 是基分类器，产生的结果范围是 $\{-1,+1\}$ ，可能与真实结果有偏差。
$H(x)$ 是集成分类器，举例来说，如果超过一半的基分类器的分类结果是+1，则集成分类器的结果是+1。
对于式 $(2)$ ，设 $A=\sum \limits _{i=1}^T(h_i(x))$ ,分析如下，如果 $A>0$ 表明 $T$ 个基分类器分类结果为 $+1$ 的较多，结果是集成分类器分类结果是 $+1$ ；如果 $A=0$ ，表明 $T$ 个基分类器中，分类结果为 $+1$ 的 $-1$ 的一样多。如果 $A<0$ ，表明 $T$ 个基分类器中，分类结果为 $-1$ 的基分类器数量较多，集成分类器的结果为 $-1$ 。函数是符号函数，在 $·<0,·=0,·>0$ 时分别取值为 $-1,0,1$ 。

假设基分类器的错误率相互独立，则由hoeffding不等式可知，集成的错误率为：

P (H (x) \neq f (x)) = \sum k = 0 T / 2 C k T (1 - ϵ) k ϵ T - k \leq e - 1 2 T (1 - 2 ϵ) 2 (3)

$\begin{equation} \begin{aligned} P(H(x)\ne f(x)) &= \sum \limits _{k=0} ^{T/2}C_T^k(1-\epsilon)^k\epsilon^{T-k} \\ &\le e^{- \frac 1 2T(1-2\epsilon)^2} \end{aligned} \tag 3 \end{equation}$
上式可以看出，随着集成中个体分类器数目

TT $T$ 的增大，集成的错误率将成指数级下降，最终趋于零。

hoeffding不等式为：

随 机 变 量 x i, x i \in {0, 1}, x ¯ ¯ ¯ = 1 n (x 1 + x 2 + \dots + x n) 则 有 P (| x ¯ ¯ ¯ - E (x ¯ ¯ ¯) | \geq t) \leq e - 2 n t 2

$随机变量 x_i,x_i \in \{0,1\}, \overline x= \frac 1 n (x_1+x_2+\cdots+x_n) \\ 则有P(|\overline x-E(\overline x)|\ge t ) \ \le e^{-2nt^2}$
式

(3)(3) $(3)$ 中，

t=12−ϵt=12−ϵ $t = \frac 1 2 -\epsilon$ ,

n=Tn=T $n=T$

P (H (x) \neq f (x)) = P (| H (x) - f (x) | \geq t) \leq e - 2 n t 2 = e - 2 T (1 2 - ϵ) 2 = e - 1 2 T (1 - 2 ϵ) 2

$P(H(x)\ne f(x)) = P(|H(x)-f(x)|\ge t) \le e^{-2nt^2} = e^{-2T(\frac 1 2 -\epsilon)^2} = e^{- \frac 1 2 T(1-2\epsilon)^2}$
根据个体学习器的生产方式，目前的集成学习方法大致可以分为两大类，即个体学习器间存在强依赖关系，必须串行生成的序列化方法，以及个体学习器间不存在依赖关系，可同时生成的并行化方法；前者的代表是Boosting，后者代表的是Bagging和随机森林。

Boosting

Boosting是一族可将弱学习器提升为强学习器的方法，这族算法的工作机制类似：先从初始训练集训练处一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。

Boosting族算法最著名的代表是Adaboost。

Adaboost算法有多种推导方式，比较容易理解的是基于“加性模型”，即基学习器的线性组合：

H (x) = \sum t = 1 T α t h t (x) (4)

$H(x) = \sum \limits _{t=1}^T \alpha_th_t(x) \tag 4$
Adaboost的推导主要有三个方面的内容：损失函数的定义，

αtαt $\alpha_t$ 的求解和

ht(x)ht(x) $h_t(x)$ 的求解。

损失函数：

这里选用指数损失函数来替换0/1损失函数来作为优化目标，理由如下：

指数损失函数的形式为：

l e x p (H | D) = E x \sim D [e - f (x) H (x)] (5)

$l_{exp}(H|D) = E_{x\sim D}[e^{-f(x)H(x)}] \tag 5$
上式中：

$f(x)$ 是真实函数，函数值范围是 $\{-1,+1\}$ ;
$H(x)$ 是基学习器，函数值范围是 $\{-1,+1\}$ ，结果可能存在误差
$D$ 指某种分布;
$x \sim D$ 的意思是， $x$ 服从 $D$ 分布；
$l_{exp}(H|D)$ 的含义是在分布为 $D$ 的前提下，以 $H$ 为自变量的损失函数。

自然的，我们希望获得公式 $(5)$ 的最小化，考虑公式 $(5)$ 对 $H(x)$ 求一阶偏导：

\partial l e x p ( H | D ) \partial H ( x ) = \partial E x \sim D [ e - f ( x ) H ( x ) ] \partial H ( x ) = - e - H (x) E x \sim D f (x) = - e - H (x) [1 \cdot P (f (x) = 1 | x) + (- 1) P (f (x) = - 1 | x)] = - e - H (x) P (f (x) = 1 | x) + e - H (x) P (f (x) = - 1 | x) (6)

$\begin{equation} \begin{aligned} \frac {\partial{l_{exp}(H|D)} } {\partial {H(x) }} &=\frac {\partial{E_{x \sim D}[e^{-f(x)H(x)}]} } {\partial {H(x) }} \\ &=-e^{-H(x)}E_{x \sim D}f(x) \\ & = -e^{-H(x)}[1\cdot P(f(x)=1|x)+(-1)P(f(x)=-1|x)]\\ &= -e^{-H(x)}P(f(x)=1|x)+ e^{-H(x)}P(f(x)=-1|x) \end{aligned} \tag 6 \end{equation}$
令式

(4)(4) $(4)$ 等于0 ，则有：

\partial l e x p ( H | D ) \partial H ( x ) e - H (x) P (f (x) = 1 | x) (e H (x)) 2 H (x) = - e - H (x) P (f (x) = 1 | x) + e H (x) P (f (x) = - 1 | x) = 0 = e H (x) P (f (x) = - 1 | x) = P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x ) = 1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x ) \Rightarrow \Rightarrow \Rightarrow (6)

$\begin{equation} \begin{aligned} \frac {\partial{l_{exp}(H|D)} } {\partial {H(x) }} &= -e^{-H(x)}P(f(x)=1|x)+ e^{H(x)}P(f(x)=-1|x)=0 &\Rightarrow\\ e^{-H(x)}P(f(x)=1|x) &= e^{H(x)}P(f(x)=-1|x) &\Rightarrow\\ (e^{H(x)})^2 &= \frac {P(f(x)=1|x)} {P(f(x)=- 1|x)} &\Rightarrow\\ H(x) &= \frac 1 2ln \frac {P(f(x)=1|x)} {P(f(x)=- 1|x)} \end{aligned} \tag 6 \end{equation}$
因此，有：

s i g n (H (x)) = s i g n (1 2 l n P ( f ( x ) = 1 | x ) P ( f ( x ) = - 1 | x )) = {1, P (f (x) = 1 | x) > P (f (x) = - 1 | x) - 1, P (f (x) = 1 | x) < P (f (x) = - 1 | x) = arg min y \in - 1, 1 P (f (x) = y | x) (7)

$\begin{equation} \begin{aligned} sign(H(x)) &=sign(\frac 1 2ln \frac {P(f(x)=1|x)} {P(f(x)=- 1|x)}) \\ &=\begin{cases} 1, P(f(x)=1|x)> P(f(x)=-1|x)\\ -1,P(f(x)=1|x)< P(f(x)=-1|x) \end{cases}\\ &= \mathop{\arg\min}_{y \in {-1,1}} P(f(x)=y|x) \end{aligned} \tag 7 \end{equation}$
这意味着，

sign(H(x))sign(H(x)) $sign(H(x))$ 达到了贝叶斯最优错误率，换言之，若指数损失函数最小化，则分类错误率也将最小化，这说明指数损失函数是分类任务原本0/1损失函数的一致性的替代损失函数，由于这个替代函数有更好的数学性质，如连续可微，所以替代0/1损失函数。

$\alpha_t$ 的求解

在adaboost算法中，第一个基分类器 $h_1$ 是通过直接将基学习算法用于初始数据分布而得，此后迭代地生成 $h_t$ 和 $\alpha_t$ 当基分类器 $h_t$ 基于分布 $D$ 产生后，该分类器的权重 $\alpha_t$ 应是的 $\alpha_t h_t$ 最小化指数损失函数。

l e x p (α t h t | D t) = E x \sim D t [e - f (x) α t h t (x)] = E x \sim D t [e - α t I (f (x) = h t (x) + e α t I (f (x) \neq h t (x))] = e - α t P x \sim D t (f (x) = h t (x)) + e α t P x \sim D t (f (x) \neq h t (x)) = e - α t (1 - ϵ t) + e α t ϵ t (8)

$\begin{equation} \begin{aligned} l_{exp}(\alpha_th_t|D_t) &= E_{x \sim D_t}[e^{-f(x)\alpha _th_t(x)}] \\ &= E_{x \sim D_t}[e^{-\alpha_t }I(f(x)=h_t(x)+e^{\alpha_t }I(f(x) \ne h_t(x))] \\ &= e^{-\alpha _t}P_{x \sim D_t}(f(x)=h_t(x))+ e^{\alpha _t}P_{x \sim D_t}(f(x) \ne h_t(x)) \\ &= e^{-\alpha_t}(1-\epsilon_t) +e^{\alpha _t}\epsilon_t \end{aligned} \tag 8 \end{equation}$
上式中，

I(⋅)I(⋅) $I(\cdot)$ 是指示函数，在

⋅⋅ $\cdot$ 为真和假时分别取值为1,0，

ϵt=Px∼Dt(ht(x)≠f(x))ϵt=Px∼Dt(ht(x)≠f(x)) $\epsilon_t=P_{x\sim D_t}(h_t(x)\ne f(x))$ ,考虑指数损失函数的导数：

\partial l e x p ( α t h t | D t ) \partial α t = - e - α t (1 - ϵ t) + e α t ϵ t (9)

$\frac {\partial{l_{exp}(\alpha_th_t|D_t)}} {\partial \alpha_t} = -e^{-\alpha_t}(1-\epsilon_t)+e^{\alpha_t }\epsilon_t \tag 9$
使上式为零，可解得：

α t = 1 2 l n (1 - ϵ t ϵ t) (10)

$\alpha _t = \frac 1 2ln(\frac {1-\epsilon_t}{\epsilon_t}) \tag {10}$
式

(10)(10) $(10)$ 即为

αtαt $\alpha_t$ 的求解结果。

$h_t(x)$ 的求解：

adaboost算法在获得 $H_{t-1}$ 之后样本分布将进行调整，使下一轮的基学习器 $h_t$ 能纠正 $H_{t-1}$ 的一些错误，理想的 $h_t$ 能纠正 $H_{t-1}$ 的全部错误，即最小化为：

l e x p (H t - 1 + h t | D t) = E x \sim D t [e - f (x) (H t - 1 (x) + h t (x))] = E x \sim D t [e - f (x) (H t - 1 (x) e - f (x) h t (x)] (11)

$\begin{equation} \begin{aligned} l_{exp}(H_{t-1}+h_t|D_t) & = E_{x \sim D_t}[e^{-f(x)(H_{t-1}(x)+h_t(x))}] \\ & = E_{x \sim D_t}[e^{-f(x)(H_{t-1}(x)}e^{-f(x)h_t(x)}] \end{aligned} \tag {11} \end{equation}$
注意到

f2(x)=h2t(x)=1f2(x)=ht2(x)=1 $f^2(x) = h^2_t(x)=1$ ,因为

f(x)∈{−1,+1},ht(x)∈{−1,+1}f(x)∈{−1,+1},ht(x)∈{−1,+1} $f(x) \in \{-1,+1\},h_t(x) \in \{-1,+1\}$ ,上式使用

e−f(x)ht(x)e−f(x)ht(x) $e^{-f(x)h_t(x)}$ 的泰勒展开式近似为：

l e x p (H t - 1 + h t | D t) = E x \sim D t [e - f (x) (H t - 1 (x) (1 - f (x) h t (x) + f 2 ( x ) h 2 t ( x ) 2)] = E x \sim D t [e - f (x) (H t - 1 (x) (1 - f (x) h t (x) + 1 2)] (12)

$\begin{equation} \begin{aligned} l_{exp}(H_{t-1}+h_t|D_t) & = E_{x \sim D_t}[e^{-f(x)(H_{t-1}(x)}(1-f(x)h_t(x)+\frac{f^2(x)h^2_t(x)} 2)]\\ & = E_{x \sim D_t}[e^{-f(x)(H_{t-1}(x)}(1-f(x)h_t(x)+\frac1 2)] \end{aligned} \tag {12} \end{equation}$
上式中

exex $e^x$ 的泰勒展开式为：

ex=1+x+x22!+⋯+xnn!+o(xn)ex=1+x+x22!+⋯+xnn!+o(xn) $e^x =1+x+\frac{x^2}{2!}+\cdots+\frac{x^n}{n!}+o(x^n)$

于是，理想的基学习器：

h t (x) = arg min h l e x p (H t - 1 + h | D) = arg min h E x \sim D [e - f (x) H t - 1 (x) (1 - f (x) h (x) + 1 2)] = arg max h E x \sim D [e - f (x) H t - 1 (x) f (x) h (x)] = arg max h E x \sim D [e - f ( x ) H t - 1 ( x ) E x \sim D [ e - f ( x ) H t - 1 ( x ) ] f (x) h (x)] (13)

$\begin{equation} \begin{aligned} h_t(x) &= \mathop{\arg\min}_{h} l_{exp}(H_{t-1}+h|D)\\ &= \mathop{\arg\min}_{h} E_{x \sim D} [e^{-f(x)H_{t-1}(x)}(1-f(x)h(x)+\frac 12)]\\ &= \mathop{\arg\max}_{h} E_{x \sim D} [e^{-f(x)H_{t-1}(x)}f(x)h(x)]\\ &= \mathop{\arg\max}_{h} E_{x \sim D} [\frac{e^{-f(x)H_{t-1}(x)}} {E_{x \sim D}[e^{-f(x)H_{t-1}(x)}]}f(x)h(x)]\\ \end{aligned} \tag {13} \end{equation}$
上式中，

Ex∼D[e−f(x)Ht−1(x)]Ex∼D[e−f(x)Ht−1(x)] $E_{x \sim D}[e^{-f(x)H_{t-1}(x)}]$ 是一个常数，令

DtDt $D_t$ 为一个分布：

D t (x) = D ( x ) e - f ( x ) H t - 1 ( x ) E x \sim D [ e - f ( x ) H t - 1 ( x ) ] (14)

$D_t (x) = \frac{D(x)e^{-f(x)H_{t-1}(x)}} {E_{x \sim D[e^{-f(x)H_{t-1}(x)}]}} \tag{14}$
则根据数学期望的定义，这等价于:

h t (x) = arg max h E x \sim D [e - f ( x ) H t - 1 ( x ) E x \sim D [ e - f ( x ) H t - 1 ( x ) ] f (x) h (x)] = arg max h E x \sim D t [f (x) h (x)] (15)

$\begin{equation} \begin{aligned} h_t(x) &= \mathop{\arg\max}_{h} E_{x \sim D} [\frac{e^{-f(x)H_{t-1}(x)}} {E_{x \sim D}[e^{-f(x)H_{t-1}(x)}]}f(x)h(x)]\\ &= \mathop{\arg\max}_{h} E_{x \sim D_t} [f(x)h(x)]\\ \end{aligned} \tag {15} \end{equation}$
因为,

f(x),h(x)∈{−1,+1}f(x),h(x)∈{−1,+1} $f(x),h(x) \in \{-1,+1\}$ ，有：

f (x) h (x) = 1 - 2 I (f (x) \neq h (x)) (16)

$f(x)h(x) = 1-2I(f(x)\ne h(x)) \tag{16}$
这是因为：

$f(x)$	$h(x)$	$f(x)h(x)$	$I(f(x)\ne h(x))$
-1	-1	1	0
-1	+1	-1	1
+1	+1	1	0
+1	-1	-1	1

所以有， $f(x)h(x)=1-2I(f(x)\ne h(x))$

则理想的基学习器为:

h t (x) = arg max h E x \sim D t [f (x) h (x)] = arg min h E x \sim D t [I (f (x) \neq h (x))] (17)

$\begin{equation} \begin{aligned} h_t(x) &= \mathop{\arg\max}_{h} E_{x \sim D_t} [f(x)h(x)]\\ &= \mathop{\arg\min}_{h} E_{x \sim D_t} [I(f(x) \ne h(x))]\\ \end{aligned} \tag {17} \end{equation}$
由此可见，理想的

htht $h_t$ 将在分布

DtDt $D_t$ 下最小化分类误差。因此，弱分类器将基于分布

DtDt $D_t$ 来训练，且针对

DtDt $D_t$ 的分类误差应小于0.5，这在一定程度上类似”残差逼近”的思想，考虑到

DtDt $D_t$ 和

Dt+1Dt+1 $D_{t+1}$ 的关系，有：

D t + 1 (x) = D ( x ) e - f ( x ) H t ( x ) E x \sim D [ e - f ( x ) H t ( x ) ] = D ( x ) e - f ( x ) H t - 1 ( x ) e - f ( x ) α t h t ( x ) E x \sim D [ e - f ( x ) H t ( x ) ] = D ( x ) e - f ( x ) H t - 1 ( x ) e - f ( x ) α t h t ( x ) E x \sim D [ e - f ( x ) H t - 1 ( x ) ] E x \sim D [ e - f ( x ) H t - 1 ( x ) ] E x \sim D [ e - f ( x ) H t ( x ) ] = D t (x) e - f (x) α t h t (x) E x \sim D [ e - f ( x ) H t - 1 ( x ) ] E x \sim D [ e - f ( x ) H t ( x ) ] (18)

$\begin{equation} \begin{aligned} D_{t+1} (x) &= \frac{D(x)e^{-f(x)H_{t}(x)}} {E_{x \sim D[e^{-f(x)H_{t}(x)}]}} \\ &= \frac{D(x)e^{-f(x)H_{t-1}(x)}e^{-f(x)\alpha_th_t(x)}} {E_{x \sim D[e^{-f(x)H_{t}(x)}]}} \\ &= \frac{D(x)e^{-f(x)H_{t-1}(x)}e^{-f(x)\alpha_th_t(x)}E_{x \sim D[e^{-f(x)H_{t-1}(x)}]}} {E_{x \sim D[e^{-f(x)H_{t-1}(x)}]}E_{x \sim D[e^{-f(x)H_{t}(x)}]}} \\ &= D_t(x)e^{-f(x)\alpha_th_t(x)} \frac{E_{x \sim D[e^{-f(x)H_{t-1}(x)}]}} {E_{x \sim D[e^{-f(x)H_{t}(x)}]}} \end{aligned} \tag {18} \end{equation}$
至此，

ht(x)ht(x) $h_t(x)$ 的表达式推导完毕。