集成学习

最新推荐文章于 2022-06-25 10:05:43 发布

-倾城之恋-

最新推荐文章于 2022-06-25 10:05:43 发布

阅读量231

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习统计优化

本文链接：https://blog.youkuaiyun.com/P081513083/article/details/98410478

机器学习同时被 3 个专栏收录

37 篇文章

订阅专栏

统计

23 篇文章

订阅专栏

优化

12 篇文章

订阅专栏

集成学习方法分为两大类：

1）基于boost的方法：

基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。
这个方法是首先给每个样本赋一个权值，这个权值被利用到损失函数中。然后训练第一个弱学习器，完成训练之后，根据这个弱学习器在训练集的上的表现，更新样本权值，具体来说就是预测错误的样本被赋予更大的权值，预测正确的值被赋予更小的权值，然后继续训练第二个弱学习器。这样训练N个弱学习器后，将这个N个弱学习器加权求和，作为最终的强学习器。这个N个弱学习器的权重完全根据他们自己的性能确定，性能越好权重越大。
比较典型的就是adaboost算法。此算法要点就是，样本权重如何更新，以及弱基学习器的权重如何求。实际上，adaboost算法是前向分步算法的特例，在前向分步算法的损失函数为指数损失函数时，可以推导出adaboost算法中弱基学习器的权重计算公式，以及样本权重的更新规则。

假设已经训练好了 $m - 1$ 个基分类器 ${G_{1}(x),..., G_{m-1}(x)}$ ，因为前面 $m - 1$ 个弱基分类器的权重分别为 ${α1,...,αm−1}\{\alpha_1,...,\alpha_{m-1}\}$ ，且
$fm−1=∑i=1m−1αiGi(x)f_{m-1}=\sum\limits_{i=1}^{m-1}\alpha_iG_{i}(x)$ ,
或者 $fm−1=fm−2+αm−1Gm−1(x),f0=0f_{m-1}=f_{m-2}+\alpha_{m-1}G_{m-1}(x), f_0=0$ 。

指数损失函数
$L(αm,Gm(x))=∑i=1Nexp(−yifm(xi))=∑i=1Nexp(−yi(fm−1(xi)+αmGm(xi)))=∑i=1Nexp(−yifm−1(xi))exp(−yiαmGm(xi))L(\alpha_m,G_m(x)) \\=\sum\limits_{i=1}^Nexp(-y_if_m(x_i)) \\=\sum\limits_{i=1}^Nexp(-y_i(f_{m-1}(x_i)+\alpha_mG_m(x_i))) \\=\sum\limits_{i=1}^Nexp(-y_if_{m-1}(x_i))exp(-y_i\alpha_mG_m(x_i))$
因为 $exp(-y_if_{m-1}(x_i))$ 是常数，记为 $w‾m,i=exp(−yifm−1(xi))\overline w_{m,i}=exp(-y_if_{m-1}(x_i))$ 。
(此处可看出，在已知前m-1个分类器以及其系数的情况下，如果求 $G_m(x)$ 使得整体最优，相当于最小化 $G_m(x)$ 的加权损失函数，其未归一化权值为 $exp(-y_if_{m-1}(x_i))$ 。)
指示函数:
$I(z)={1,z为真0,z为假\mathbb{I}(z)=\left\{ \begin{array}{rcl} 1, & z为真\\ 0, & z为假 \end{array} \right.$
$argmin⁡αmL(αm,Gm(x))=argmin⁡αm∑i=1Nw‾m,iexp(−yiαmGm(xi))=argmin⁡αm∑i=1Nw‾m,i(exp(−αm)I(yi=Gm(xi))+exp(αm)I(yi≠Gm(xi))=argmin⁡αm∑i=1Nw‾m,i(exp(−αm)(1−I(yi≠Gm(xi)))+exp(αm)I(yi≠Gm(xi))arg\min\limits_{\alpha_m} L(\alpha_m,G_m(x)) \\=arg\min\limits_{\alpha_m}\sum\limits_{i=1}^N\overline w_{m,i}exp(-y_i\alpha_mG_m(x_i)) \\=arg\min\limits_{\alpha_m}\sum\limits_{i=1}^N\overline w_{m,i}(exp(-\alpha_m)\mathbb{I}(y_i=G_m(x_i))+exp(\alpha_m)\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{\alpha_m}\sum\limits_{i=1}^N\overline w_{m,i}(exp(-\alpha_m)(1-\mathbb{I}(y_i\neq G_m(x_i)))+exp(\alpha_m)\mathbb{I}(y_i\neq G_m(x_i))$

令 $∂L∂αm=0\frac{\partial L}{\partial \alpha_m}=0$
则：
$αm=12ln∑i=1Nw‾m,i−∑i=1Nw‾m,iI(yi≠Gm(xi))∑i=1Nw‾m,iI(yi≠Gm(xi))\alpha_m=\frac{1}{2}ln\frac{\sum\limits_{i=1}^{N}\overline w_{m,i}-\sum\limits_{i=1}^{N}\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}{\sum\limits_{i=1}^{N}\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}$
因为adaboost算法加权错误率为：
$ϵm=∑i=1Nw‾m,iI(yi≠Gm(xi))∑i=1Nw‾m,i\epsilon_m=\frac{\sum\limits_{i=1}^{N}\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}{\sum\limits_{i=1}^{N}\overline w_{m,i}}$
所以：
$αm=12ln1−ϵmϵm\alpha_m=\frac{1}{2}ln\frac{1-\epsilon_m}{\epsilon_m}$
也就是说当前的弱基分类器的权重和且只和它的性能有关。

然后我们考虑如何更新样本权重：
$argmin⁡Gm(x)L(αm,Gm(x))=argmin⁡Gm(x)∑i=1Nw‾m,iexp(−yiαmGm(xi))=argmin⁡Gm(x)∑i=1Nw‾m,i(exp(−αm)(1−I(yi≠Gm(xi)))+exp(αm)I(yi≠Gm(xi))=argmin⁡Gm(x)∑i=1Nw‾m,i(exp(αm)−exp(−αm))I(yi≠Gm(xi))=argmin⁡Gm(x)∑i=1Nw‾m,iI(yi≠Gm(xi))=argmin⁡Gm(x)∑i=1Nw‾m,iI(yi≠Gm(xi))∑i=1Nw‾m,i=argmin⁡Gm(x)∑i=1Nwm,iI(yi≠Gm(xi))arg\min\limits_{G_m(x)} L(\alpha_m,G_m(x)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}exp(-y_i\alpha_mG_m(x_i)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}(exp(-\alpha_m)(1-\mathbb{I}(y_i\neq G_m(x_i)))+exp(\alpha_m)\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}(exp(\alpha_m)-exp(-\alpha_m))\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i)) \\=arg\min\limits_{G_m(x)}\frac{\sum\limits_{i=1}^N\overline w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))}{\sum\limits_{i=1}^N\overline w_{m,i}} \\=arg\min\limits_{G_m(x)}\sum\limits_{i=1}^N w_{m,i}\mathbb{I}(y_i\neq G_m(x_i))$
再一次可以清晰看到，在已知前m-1个分类器以及其系数的情况下（ $αm\alpha_m$ 为正的未知系数，不影响结果），如果求 $G_m(x)$ 使得整体最优，等价于最小化 $G_m(x)$ 的加权损失函数，其未归一化权值为 $exp(-y_if_{m-1}(x_i))$ ，归一化权重为 $w_{m,i}$ 。

并且有效损失函数权重为：
$wm,i=w‾m,i∑i=1Nw‾m,iw_{m,i}=\frac{\overline w_{m,i}}{\sum\limits_{i=1}^N\overline w_{m,i}}$
且可以推导出权重更新公式：
因为
$w‾m,i=exp(−yifm−1(xi))\overline w_{m,i}=exp(-y_if_{m-1}(x_i))$
则
$w‾m+1,i=exp(−yifm(xi))=exp(−yi(fm−1+αmGm(xi)))=exp(−yi(fm−1))exp(−yiαmGm(xi))=w‾m,iexp(−yiαmGm(xi)\overline w_{m+1,i}=exp(-y_if_{m}(x_i)) \\=exp(-y_i(f_{m-1}+\alpha_mG_m(x_i))) \\=exp(-y_i(f_{m-1}))exp(-y_i\alpha_mG_m(x_i)) \\=\overline w_{m,i}exp(-y_i\alpha_mG_m(x_i)$
则新权重为：
$w‾m+1,i′=wm,iexp(−yiαmGm(xi))\overline w_{m+1,i}'=w_{m,i}exp(-y_i\alpha_mG_m(x_i))$
归一化后有效权重为：
$wm+1,i=w‾m+1,i′∑i=1Nw‾m+1,i′w_{m+1,i}=\frac{\overline w_{m+1,i}'}{\sum\limits_{i=1}^N\overline w_{m+1,i}'}$
每次基于旧的有效权重生成新的权重后，新的权重都需要归一化来成为有效权重。