《统计学习方法》（第八章）——提升方法

最新推荐文章于 2021-01-31 10:47:36 发布

原创最新推荐文章于 2021-01-31 10:47:36 发布 · 331 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍了提升方法中的AdaBoost算法，包括其基本思路、训练误差分析和算法的解释。AdaBoost通过加权多数表决的方式减少误差率，通过迭代优化弱分类器，构建强分类器。算法的训练误差界呈指数级下降，证明了其高效性。

提升方法AdaBoost算法

提升方法的基本思路

在概率近似正确(PAC)学习的框架中，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机的好，那么就称为弱可学习，而强可学习与弱可学习是等价的，所以可以通过方法来提升弱可学习为强可学习，AdaBoost算法采取加权多数表决的方式来减少误差率

AdaBoost算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中 $xi∈Rn,yi∈{−1,+1}x_i \in R^n, y_i \in \{-1,+1\}$
输出：最终分类器 $G (x)$
$(1)$ 初始化训练数据权值分布
$i=1,2,....,ND_1=(w_{11},w_{12},...,w_{1N}), \ \ \ \ \ \ w_{1i}=\frac{1}{N},\ \ \ \ \ i=1,2,....,N$
$(2)$ 对 $m = 1, 2, . . . ., M$

$(a)$ 使用权值分布 $D_m$ 的训练数据集学习，得到基本分类器
$Gm(x):X→{−1,+1}G_m(x):X \to \{-1,+1\}$
$(b)$ 计算 $G_m(x)$ 在训练数据集上的分类误差率,选择误差率最小的作为 $G_m(x)$
$em=∑i=1NP(Gm(xi)≠yi)=∑i=1NwmiI(Gm(xi)≠yi)e_m=\sum\limits_{i=1}^NP(G_m(x_i) \ne y_i)=\sum\limits_{i=1}^Nw_{mi}I(G_m(x_i)\ne y_i)$
$(c)$ 计算 $G_m(x)$ 的系数
$am=12log⁡1−emema_m=\frac{1}{2} \log \frac{1-e_m}{e_m}$
$(d)$ 更新训练数集的权值分布
$D_{m+1}=(w_{m+1,1},w_{m+1,2},...,w_{m+1,N})$
$i=1,2,...,Nw_{m+1,i}=\frac{w_{mi}}{Z_m}\exp (-a_my_iG_m(x_i)),\ \ \ \ \ \ i=1,2,...,N$
其中
$Zm=∑i=1Nwmiexp⁡(−amyiGm(xi))Z_m=\sum\limits_{i=1}^Nw_{mi}\exp (-a_my_iG_m(x_i))$
$(3)$ 构建基本分类器的线性组合
$f(x)=∑m=1MamGm(x)f(x)=\sum\limits_{m=1}^Ma_mG_m(x)$
$G(x)=sign(f(x))=sign(∑m=1MamGm(x))G(x)=sign(f(x))=sign(\sum\limits_{m=1}^Ma_mG_m(x))$
如果被误分类，则权值被放大
$e2am=1−ememe^{2a_m}=\frac{1-e_m}{e_m}$
倍

AdaBoost算法的训练误差分析

AdaBoost算法最终分类器的训练误差界为
$1N∑i=1NI(G(xi)≠yi)≤1N∑i=1Nexp⁡(−yif(xi))=∏i=1NZi\frac{1}{N}\sum\limits_{i=1}^NI(G(x_i)\ne y_i) \le \frac{1}{N}\sum\limits_{i=1}^N \exp(-y_if(x_i))=\prod\limits_{i=1}^NZ_i$
下面我们给出证明
当 $G(xi)≠yiG(x_i) \ne y_i$ 时 $y_if(x_i) <0$ ,因而 $exp⁡(−yif(xi))≥1\exp(-y_if(x_i)) \ge1$ 所以直接得不等式证明又
$w_{mi}\exp(-a_my_iG_m(x_i))=Z_mw_{m+1,i}$
推导如下
$1N∑i=1Nexp⁡(−yif(xi))=1N∑i=1Nexp⁡(−∑m=1MamyiGm(xi))\frac{1}{N}\sum\limits_{i=1}^N\exp(-y_if(x_i))=\frac{1}{N}\sum\limits_{i=1}^N\exp (-\sum\limits_{m=1}^Ma_my_iG_m(x_i))$
$=∑i=1Nw1i∏m=1Mexp⁡(−amyiGm(xi))=\sum\limits_{i=1}^Nw_{1i}\prod_{m=1}^M \exp(-a_my_iG_m(x_i))$
$=Z1∑i=1Nw2i∏m=2Mexp⁡(−amyiGm(xi))=Z_1\sum\limits_{i=1}^Nw_{2i}\prod_{m=2}^M \exp(-a_my_iG_m(x_i))$
$=Z1Z2∑i=1Nw3i∏m=3Mexp⁡(−amyiGm(xi))=Z_1Z_2\sum\limits_{i=1}^Nw_{3i}\prod_{m=3}^M \exp(-a_my_iG_m(x_i))$
$= . . . .$
$∏m=1MZm\prod_{m=1}^MZ_m$
得证

$∏m=1MZm=∏m=1M[2em(1−em)]\prod_{m=1}^MZ_m=\prod_{m=1}^M[2\sqrt{e_m(1-e_m)}]$
$=∏m=1M(1−4γm2)=\prod_{m=1}^M\sqrt{(1-4\gamma^2_m)}$
$≤exp⁡(−2∑m=1Mγm2)\le\exp(-2\sum\limits_{m=1}^M \gamma^2_m)$
其中
$γm=12−em\gamma_m=\frac{1}{2}-e_m$

下面证明
$Zm=∑i=1Nwmiexp⁡(−amyiGm(xi))Z_m=\sum\limits_{i=1}^Nw_{mi}\exp(-a_my_iG_m(x_i))$
$=∑yi=Gm(xi)wmie−am+∑yi≠Gm(xi)wmieam=\sum\limits_{y_i=G_m(x_i)}w_{mi}e^{-a_m}+\sum\limits_{y_i \ne G_m(x_i)}w_{mi}e^{a_m}$
$1-e_m)e^{-a_m}+e_me^{a_m}$
$=2em(1−em)=2\sqrt{e_m(1-e_m)}$
$=1−4γm2=\sqrt{1-4\gamma_m^2}$
由 $ex,1−xe^x,\sqrt{1-x}$ 在0的泰勒展开推出
$∏m=1M(1−4γm2)≤exp⁡(−2∑m=1Mγm2)\prod_{m=1}^M\sqrt{(1-4\gamma^2_m)}\le\exp(-2\sum\limits_{m=1}^M \gamma^2_m)$
推论
如果存在 $γ>0,\gamma>0,$ 对所有 $m$ 有 $γm≥γ\gamma_m \ge \gamma$
则
$1N∑i=1NI(G(xi)≠yi)≤exp⁡(−2Mγ2)\frac{1}{N}\sum\limits_{i=1}^NI(G(x_i) \ne y_i)\le \exp(-2M \gamma^2)$
即模型错误率呈指数级下降

AdaBoost算法的解释

前向分步算法

算法:
输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ;损失函数 $L (y, f (x))$ ,基函数集 ${b(x;γ)}\{b(x;\gamma) \}$
输出:加法模型 $f (x)$
$(1)$ 初始化 $f_0(x)=0$
$(2)$ 对 $m = 1, 2, . . ., M$

$(a)$ 极小化损失函数
$min⁡β,γ∑i=1NL(yi,fm−1(xi)+β(xi;γ))(\beta_m,\gamma_m)=\argmin\limits_{\beta,\gamma}\sum\limits_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta(x_i;\gamma))$
得到更新的参数
$(b)$ 更新
$fm(x)=fm−1(x)+βmb(x:γm)f_m(x)=f_{m-1}(x)+\beta_mb(x:\gamma_m)$
$(3)$ 得到加法模型
$f(x)=fM(x)=∑m=1Mβmb(x:γm)f(x)=f_M(x)=\sum\limits_{m=1}^M\beta_mb(x:\gamma_m)$

前向分步算法与AdaBoost

AdaBoost算法是前向分布加法算法的特例，这是模型是由基本分类函数组成的加法模型，损失函数是指数函数

下面证明
定义
$L(y,f(x))=exp⁡[−yf(x)]L(y,f(x))=\exp[-yf(x)]$
假设经过 $m - 1$ 次迭代得到 $f_{m-1}(x)$
在求第 $m$ 次迭代
$min⁡a,G∑i=1Nexp⁡[−yi(fm−1(xi)+aG(xi)](a_m,G_m(x))=\argmin\limits_{a,G}\sum\limits_{i=1}^N \exp[-y_i(f_{m-1}(x_i)+aG(x_i)]$
$min⁡a,G∑i=1Nwmi^exp⁡[−yiaG(xi)](a_m,G_m(x))=\argmin\limits_{a,G}\sum\limits_{i=1}^N \hat{w_{mi}}\exp[-y_iaG(x_i)]$
其中
$wmi^=exp⁡[−yifm−1(xi)]\hat{w_{mi}}=\exp[-y_if_{m-1}(x_i)]$
首先求解 $G^*_m(x)$ 对任意 $a > 0$ 由下式得到
$min⁡G∑i=1Nwmi^I(yi≠G(xi))G_m^*(x)=\argmin\limits_G\sum\limits_{i=1}^N\hat{w_{mi}}I(y_i \ne G(x_i))$
随后求 $a^*$
$∑i=1Nwmi^exp⁡[−yiaG(xi)]=∑yi=Gm(xi)wmi^e−a+∑yi≠Gm(xi)wmi^ea\sum\limits_{i=1}^N\hat{w_{mi}}\exp[-y_iaG(x_i)]=\sum\limits_{y_i=G_m(x_i)}\hat{w_{mi}}e^{-a}+\sum\limits_{y_i\ne G_m(x_i)}\hat{w_{mi}}e^{a}$
求导等于0得
$am∗=12log⁡1−emema^*_m=\frac{1}{2}\log \frac{1-e_m}{e_m}$
$em=∑i=1Nwmi^I(yi≠Gm(xi))∑i=1Nwmi^e_m=\frac{\sum\limits_{i=1}^N\hat{w_{mi}}I(y_i \ne G_m(x_i))}{\sum\limits_{i=1}^N\hat{w_{mi}}}$
$=∑i=1NwmiI(yi≠Gm(xi))=\sum\limits_{i=1}^Nw_{mi}I(y_i \ne G_m(x_i))$
又
$wmi^=exp⁡[−yifm−1(xi)]\hat{w_{mi}}=\exp[-y_if_{m-1}(x_i)]$
则
$wm+1,i^=wm,i^exp⁡[−yiamGm(x)]\hat{w_{m+1,i}}=\hat{w_{m,i}}\exp[-y_ia_mG_m(x)]$

提升树

提升树以分类树或回归树为基本模型的提升方法，最好的统计学习模型之一

提升树模型

$fM(x)=∑m=1MT(x;Θm)f_M(x)=\sum\limits_{m=1}^MT(x;\Theta_m)$
其中, $T(x;Θm)T(x;\Theta_m)$ 表示决策树， $Θ\Theta$ 为参数， $M$ 为个数

提升树算法

算法
输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中 $xi∈Rn,yi∈Rx_i \in R^n,y_i \in R$
输出:提升树 $f_M(x)$
$(1)$ 初始化 $f_0(x)=0$
$(2)$ 对 $m = 1, 2, . . ., M$

$(a)$ 计算残差
$r_{mi}=y_i-f_{m-1}(x_i),\ \ \ \ \ \ i=1,2,...,N$
$(b)$ 拟合残差 $r_{mi}$ 学习得到回归树得得 $T(x;Θm)T(x;\Theta_m)$
$(c)$ 更新 $fm(x)=fm−1(x)+T(x;Θm)f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$

$(3)$ 得到回归问题提升树
$fM(x)=∑m=1MT(x;Θm)f_M(x)=\sum\limits_{m=1}^MT(x;\Theta_m)$

梯度提升

因为一般损失函数不易优化取梯度来替换残差
算法:
输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中 $xi∈Rn,yi∈Rx_i \in R^n,y_i \in R$ 损失函数 $L (y, f (x))$
输出:回归树 $f_M(x)$
$(1)$ 初始化
$min⁡c∑i=1NL(yi,c)f_0(x)=\argmin\limits_{c}\sum\limits_{i=1}^NL(y_i,c)$
$(2)$ 对 $m = 1, 2, . . ., M$

$(a)$ 对 $i = 1, 2, . . ., N$ 计算
$rmi=−[∂L(yi,f(xi))∂f(xi)]f(x)=fm−1(x)r_{mi}=-[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$
$(b)$ 对 $r_{mi}$ 拟合一个回归树,得到第 $m$ 课树的叶子区域 $R_{mj}$
$(c)$ 对 $j = 1, 2, . . ., J$ 计算
$min⁡c∑xj∈RmjL(yi,fm−1(xi)+c)c_{mj}=\argmin\limits_{c}\sum\limits_{x_j \in R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
$(d)$ 更新 $fm(x)=fm−1(x)+∑j=1JcmjI(x∈Rmj)f_m(x)=f_{m-1}(x)+\sum\limits_{j=1}^Jc_{mj}I(x \in R_{mj})$
$(3)$ 得到回归树
$f^(x)=fM(x)=∑m=1M∑j=1JcmjI(x∈Rmj)\hat{f}(x)=f_M(x)=\sum\limits_{m=1}^M\sum\limits_{j=1}^Jc_{mj}I(x \in R_{mj})$