【统计学习】提升方法-优快云博客

本文链接：https://blog.youkuaiyun.com/ACM_hades/article/details/91450932

本文探讨了提升方法的基本思路，重点介绍了AdaBoost算法的工作原理和步骤，包括弱分类器的训练、权值调整和强分类器的组合。此外，还讲解了加法模型与前向分步算法的关系，以及提升树和梯度提升在回归和分类问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、提升方法AdaBoost算法

1、提升方法的基本思路

提升方法基本思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好.
对于分类问题而言，给定一个训练样本集，求弱分类器要比求强分类器容易得多.提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器(又称为基本分类器)，然后组合这些弱分类器，构成一个强分类器.
大多数的提升方法都是改变训练数据的概率分布(训练数据的权值分布)，针对不同的训练数据分布调用弱学习算法学习一系列弱分类器.
这样，对提升方法来说，有两个问题需要回答：
- 一是在每一轮如何改变训练数据的权值或概率分布；
- 二是如何将弱分类器组合成一个强分类器.
第1个问题，AdaBoost的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值.这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注.于是，分类问题被一系列的弱分类器“分而治之”.
第2个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法.具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用.

2、AdaBoost算法

假设给定一个二类分类的训练数据集： $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N )}$ 其中: $x∈X∈R^n, y∈{-1,+1}$ .
AdaBoost利用以下算法，从训练数据中学习一系列弱分类器或基本分类器，并将这些弱分类器线性组合成为一个强分类器.
算法步骤：
- 第一步：初始化训练数据的权值分布： $D_1=(w_11,w_12,…,w_1N )$ $w_{1i}=\frac{1}{N}$
- 第二步：循环训练基本分类器： $m = 1, 2, \dots, M$
  - 使用具有权值分布 $D_m$ 的训练数据集学习得到基本分类器: $G_m (x):X→\{-1,1\}$
  - 计算 $G_m (x)$ 在训练数据集上的分类误差率:
    $e_m=∑_{i=1}^Nw_{mi} I(G_m (x_i )!=y_i)=∑_{G_m (x_i )!=y_i}w_{mi}$ 误差为分类错误样本的权重之和。并且有： $0≤e_m≤1$
  - 计算 $G_m (x)$ 的系数： $α_m=\frac{1}{2} ln \frac{1-e_m}{e_m}$ 该函数是 $e_m$ 的单调减函数值域为 $(- \infty, + \infty)$ ，函数零点为： $e_m=1/2$ ，注意： $G_m (x)$ 是一个弱分类器但是它的准确率必须大于0.5，否则就比随机猜测准确度还低是不允许的，那么我们可以得到 $α_m$ 的实质取值范围： $(0, + \infty)$
  - 更新训练数据集的权重分布： $D_{m+1}=(w_{m+1,1},w_{m+1,2},…,w_{m+1,N} )$ $w_{m+1,i}=\frac{w_{mi}}{Z_m} exp(-α_m y_i G_m (x_i ))$ 这里 $Z_m$ 为归一化因子,使得 $D_(m+1)$ 成为一个概率分布 $Z_m=∑_{i=1}^Nw_{mi} exp(-α_m y_i G_m (x_i ))$ 由于标签为+1或者-1，所有得到
    $w_{m+1,i}=\begin{cases} \frac{w_{mi}}{Z_m} e^(-α_m ), & G_m (x_i )=y_i \\ \frac{w_{mi}}{Z_m} e^(α_m ), & G_m (x_i )!=y_i \end{cases}$
- 第三步：构建基本分类器的线性组合： $f(x)=∑_{m=1}^M α_m G_m (x)$ 最终得到分类器： $G(x)=sign(f(x))=sign(∑_{m=1}^Mα_m G_m (x) )$
步骤一训练数据集具有均匀的权值分布
步骤二中学习基本分类器的方法是一个抽象的方法，可以根据具体应用场景选择具体算法。比如下面章节用的就是决策树算法。
不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用，这是AdaBoost的一个特点.

二、加法模型与前向分步算法：

1、前向分步算法

加法模型(additive model)基本形式如下： $f(x)=∑_{m=1}^Mβ_m b(x,r_m)$ 其中， $b(x,r_m)$ 为基函数， $r_m$ 为基函数的参数， $β_m$ 为基函数的系数.
在给定训练数据及损失函数 $L (y, f (x))$ 的条件下，学习加法模型 $f (x)$ 成为经验风险极小化即损失函数极小化问题： $min_{β_m,r_m }⁡∑_{i=1}^NL(y_i,f(x_i )) =\min_{β_m,r_m }⁡∑_{i=1}^NL(y_i,∑_{m=1}^Mβ_m b(x,r_m))$
通常直接优化这个损失函数很复杂.前向分步算法求解这一优化问题的想法是：
- 我们的目标是最小化： $min_{β_m,r_m }⁡∑_{i=1}^NL(y_i,∑_{m=1}^Mβ_m b(x,r_m))$
- 求解这个式子是一下解出所有的 $β_m,r_m$ ，这样比较难，于是我们选择逐步求出 $β_m,r_m$ 的方法，假设前面 $1 到 m - 1$ 个基函数和它的系数都已经确定了，并保持不变了，这样我们到了局部加法模型 $f_{m-1} (x)$ ： $f_{m-1)}(x)=∑_{i=1}^{m-1}β_i b(x,r_i)$
- 现在为了进一步减少损失函数，我们通过再引入参数 $r_m,β_m$ ，构造新的加法模型： $f_m (x)=f_{m-1} (x_i )+β_m b(x,r_m)$
- 通过最小化下面函数来进一步减少损失函数： $β_m,r_m )=\min_{β,r}⁡∑_{i=1}^NL(y_i,f_{m-1} (x_i )+βb(x,r))$ 得到第m个基函数和它对应参数
- 直迭代直到第M步。得到最终的加法模型。
这样，前向分步算法将同时求解从 $m = 1$ 到 $M$ 所有参数 $r_m,β_m$ 的优化问题简化为逐次求解各个 $r_m,β_m$ 的优化问题.
前向分步算法：
- 输入：训练数据集；损失函数 $L (y, f (x))$ ；基函数集 ${b(x,r)\}$ (是基函数的基本形式)
- 输出：加法模型 $f (x)$ .
- 算法步骤：
  - 初始化 $f_0 (x)=0$
  - 循环训练模型， $m = 1, 2, \dots, M$
    - 极小化损失函数: $β_m,r_m )=\min_{β,r}⁡∑_{i=1}^NL(y_i,f_{m-1} (x_i )+βb(x,r))$
    - 更新: $f_m (x)=f_{m-1} (x)+ β_m b_m (x,r)$
  - 得到加法模型: $f(x)=f_M (x)=∑_{m=1}^Mβ_m b(x,r_m)$

2、前向分步算法与AdaBoost关系：

前向分步算法学习的是加法模型，当基函数为基本分类器，损失函数为如下指数损失函数时，该加法模型等价于AdaBoost： $L (y, f (x)) = e x p (- y f (x))$
第m轮迭代： $f_m (x)=f_{m-1} (x)+α_m G_m (x)$
目标是使在训练数据集 $T$ 上的指数损失最小，即： $α_m,G_m (x))=arg\min_{α,G}⁡∑_{i=1}^Nexp(-y_i (f_{m-1} (x_i )+α_m G_m (x_i)))$ $(α_m,G_m (x))=arg\min_{α,G}⁡∑_{i=1}^N \hat{w}_{mi} exp(-y_i αG(x))$ 其中， $\hat{w}_{mi} =exp(-y_i f_{m-1} (x))$ 为常数
现需要证明，上式的解： $α_m^*,G_m^* (x))$ ,就是AdaBoost算法的 $α_m,G_m (x))$ .求解式上式可分两步：
- 首先求 $G_m^* (x)$ ：
  - 如果我们将 $\hat{w}_{mi}$ 看作是每个样本的权值，将α看作一个常数，由于 $α > 0$ ，所有上式可以看作是基本模型 $G (x)$ 的加权损失函数，最小化加权损失函数得到当前的基本模型 $G_m^* (x)$ 。这和AdaBoost算法中通过某种学习算法学习得到的基本分类器是一致的，即 $G_m^* (x)=G_m (x)$ ，因为它都是使第m轮加权训练数据分类误差率最小的基本分类器.
- 再求 $α_m^*$ ：
  - 在确定 $G_m^* (x)$ 后得： $∑_{i=1}^N\hat{w}_{mi} exp(-y_i αG_m^* (x_i )) =∑_{G_m^* (x_i )=y_i}\hat{w}_{mi} e^{-α} +∑_{G_m^* (x_i )!=y_i}\hat{w}_{mi} e^α$ $=(e^{-α}+e^α ) ∑_{i=1}^N\hat{w}_{mi} I(y_i !=G_m^* (x_i )) +e^{-α} ∑_{i=1}^N\hat{w}_{mi}$
  - 所以有： $α_m^*=arg\min_{α}⁡[(e^{-α}+e^α ) ∑_{i=1}^N\hat{w}_{mi} I(y_i !=G_m^* (x_i )) +e^{-α} ∑_{i=1}^N\hat{w}_{mi} ]$
  - 对 $α$ 求导并令其为0： $-∑_{G_m^* (x_i )=y_i}\hat{w}_{mi} e^{-α} +∑_{G_m^* (x_i )!=y_i}\hat{w}_{mi} e^α =0$ $∑_{G_m^* (x_i )=y_i}\hat{w}_{mi} e^{-α} =∑_{G_m^* (x_i )!=y_i}\hat{w}_{mi} e^α$ 即： $α_m^*=\frac{1}{2} ln(\frac{∑_(G_m^* (x_i )=y_i)\hat{w}_{mi} }{∑_(G_m^* (x_i )!=y_i)\hat{w}_{mi} })$
  - 记误差率为： $e_m=\frac{∑_{i=1}^N\hat{w}_{mi} I(y_i !=G_m^* (x_i )) }{∑_(i=1)^N\hat{w}_{mi} }=∑_{i=1}^Nw_{mi} I(y_i !=G_m^* (x_i ))$ 可以理解成将 $\hat{w}_{mi}$ 归一化变成 $w_{mi}$ 。
  - 所以： $α_m^*=\frac{1}{2} ln(\frac{1-e_m}{e_m })$
  - 与AdaBoost算法完全一致.
- 再更新样本权值：
  - 经过上面的推导最后得到，当前步骤的基本分类器和它的系数，更新模型： $f_m (x)=f_{m-1} (x)+α_m G_m (x)$
  - 那么 $\hat{w}_{mi}$ 为： $\hat{w}_{m+1i}=exp(-y_i f_m (x))=\hat{w}_{mi} exp(-y_i α_m G_m (x_i ))$
  - 如果提前进行归一化： $w_{m+1i}=\frac{\hat{w}_{mi} exp(-y_i α_m G_m (x_i ))}{∑_{i=1}^N\hat{w}_{mi} exp(-y_i α_m G_m (x_i )) }=\frac{\hat{w}_{mi}}{Z_m} exp(-y_i α_m G_m (x_i ))$
  - 与AdaBoost算法完全一致.

三、提升树：

提升树:是以分类树或回归树为基本分类器的提升方法.即使用分类树或回归树来得到 $G_m$ 的adaboost算法。

1、提升树模型

以决策树为基函数的提升方法称为提升树(boosting tree).对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树.即使用的CART决策树。
提升树模型可以表示为决策树的加法模型： $f_M (x)=∑_{m=1}^MT(x;θ_m)$ 其中， $T(x;θ_m)$ 表示决策树； $θ_m$ 为决策树的参数； $M$ 为树的个数.

2、提升树算法

首先确定初始提升树 $f_0 (x)=0$ ，第 $m$ 步的模型是: $f_m (x)=f_{m-1} (x)+T(x;θ_m)$
通过经验风险极小化确定当前这一棵决策树的参数 $θ_m$ : $\hat{θ}_m=arg\min_{θ_m}⁡∑_{i=1}^NL(y_i,f_{m-1} (x)+T(x;θ_m))$
下面讨论针对不同损失函数的提升树学习算法，包括:
- 用平方误差损失函数的回归问题，
- 用指数损失函数的分类问题
- 用一般损失函数的一般决策问题.
二类分类问题提升树：
- 该提升树算法只需将AdaBoost算法中的第二部中的第1小步中的基本分类器 $G_m (x)$ 限制为CART二分类树就ok，可以说这时的提升树算法是AdaBoost算法的特殊情况
回归问题的提升树：
- 已知一个训练数据集 $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N )}$ 其中: $x∈X∈R^n, y∈Y∈R$ .
- 回归树可以参考CART树
- 回归问题提升树的递推公式： $f_0 (x)=0$ $f_m (x)=f_{m-1} (x)+T(x;θ_m ) ,m=1,2,…,M$ $f_M (x)=∑_{m=1}^MT(x;θ_m )$
- 第m步:给定当前模型 $f_{m-1} (x)$ ，需求解: $\hat{θ}_m=arg\min_{θ_m }⁡∑_{i=1}^NL(y_i,f_(m-1) (x)+T(x;θ_m))$ 得到 $\hat{θ}_m$ ，即第 $m$ 棵树的参数.
- 当采用平方误差损失函数时: $L(y,f(x))=(y-f(x))^2$
- 其损失变为: $L(y_i,f_{m-1}(x)+T(x;θ_m ))=[y-f_{m-1}(x)-T(x;θ_m )]^2=[r-T(x;θ_m )]^2$ 其中： $r=y-f_{m-1} (x)$ 是当前模型拟合数据的残差
- 所以，对回归提升树算法来说，只需简单地拟合当前模型的残差,即每次迭代后将每个样本的label改为样本的残差，再训练当前的回归树，并且回归提升树的每个基本模型的系数都是1.
- 回归提升树算法步骤：
  - 第一步：初始化:f_0 (x)=0
  - 第二步：循环迭代：m=1,2,…,M
    - 计算每个样本的残差： $r_{mi}=y_i-f_{m-1} (x_i ) ,i=1,2,…,N$
    - 将每个样本的标签更新为残差： $y_i=r_{mi}$
    - 用更新后的数据训练生成回归树，得到 $T(x;θ_m)$
    - 更新： $f_m (x)=f_{m-1} (x)+T(x;θ_m )$
  - 第三步：得到回归提升树： $f_M (x)=∑_{m=1}^MT(x;θ_m)$

3、梯度提升

提升树利用加法模型与前向分步算法实现学习的优化过程.当损失函数是平方损失和指数损失函数时，每一步优化是很简单的.但对一般损失函数而言，往往每一步优化并不那么容易.针对这一问题，Freidman提出了梯度提升(gradientboosting)算法.
下面讨论使用梯度提升(gradientboosting)算法学习任意损失函数的回归树
- 每一步都使用当前模型的梯度值： $-[\frac{∂L(y,f(x_i )}{∂f(x_i ) }]_{f(x)=f_{m-1} (x)}$
- 并且将每个样本的梯度作为当前样本残差的近似值，再训练当前的回归树.
- 梯度提升算法步骤:
  - 输入：已知一个训练数据集 $T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N )}$ 其中: $x∈X∈R^n, y∈Y∈R$ .损失函数 $L (y, f (x))$
  - 输出：回归树 $\hat{f}(x)$
  - 第一步：初始化： $f_0 (x)=arg\min_{c}⁡∑_{i=1}^N L(y_i,c)$
  - 第二步：循环迭代： $m = 1, 2, \dots, M$
    - 计算每个样本的梯度，即近似残差，作为数据的label： $y_i=r_{mi}=-[\frac{∂L(y,f(x_i ))}{∂f(x_i )}]_{f(x)=f_{m-1}(x)}$
    - 用新数据训练当前的回归树，得到第m棵树的叶结点区域 $R_mj,j=1,2…J$
    - 对每个叶子节点区域，计算每个区域的标签: $c_{mj}=arg\min_{c}⁡∑_{x_i∈R_{mj}}L(y_i,f_{m-1} (x_i )+c)$
    - 更新： $f_m (x) =f_{m-1} (x) +∑_{j=1}^Jc_{mj} I(x∈R_{mj})$
  - 第三步：得到回归树： $\hat{f}(x)=f_M (x) +∑_{m=1}^M∑_{j=1}^Jc_{mj} I(x∈R_{mj})$
- 算法第一步初始化，估计使损失函数极小化的常数值，即它是只有一个根结点的树
- 第二步的第一小步计算损失函数的负梯度在当前模型的值，将它作为残差的估计.对于平方损失函数，它就是通常所说的残差；对于一般损失函数，它就是残差的近似值.