集成学习Day9 Boosting (1)

最新推荐文章于 2024-12-28 18:59:39 发布

原创

最新推荐文章于 2024-12-28 18:59:39 发布 · 461 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文详细介绍了集成学习中的Boosting方法及其核心——Adaboost算法。首先讲解了强可学习与弱可学习的概念，随后阐述了Boosting原理及Adaboost的具体实现过程。最后通过葡萄酒数据集案例演示了Adaboost在实际应用中的效果。

集成学习Day9 Boosting (1)

目录

集成学习Day9 Boosting (1)

1. Boosting

（1）强可学习与弱可学习

（2）Boosting原理

2 Adaboost

（1）Adaboost原理

（2）sklearn代码

1. Boosting

（1）强可学习与弱可学习

Valiant和Kearns提出了“强可学习”与“弱可学习”概念。在概率近似正确PAC框架下，

强可学习：识别准确率很高并且能在多项式时间内完成的学习算法；
弱可学习：识别错误率小于1/2（即准确率仅比随机猜测高的学习算法）。
并且强可学习与弱可学习是等价的（一个概念是强可学习的充要条件是这个概念是弱可学习的）。那么，在学习中，如果已经发现了弱可学习算法，那么能否将它提升到强可学习算法？

（2）Boosting原理

获得弱可学习算法比强可学习算法要容易的多。提升方法就是从弱学习算法出发，反复学习得到一系列弱分类器（基本分类器）然后通过一定形式去组合这些弱分类器构成一个强分类器。大多数Boosting方法都是通过改变训练数据集的概率分布（训练数据不同样本的权值），针对不同概率分布的数据调用弱分类算法学习一系统的弱分类器。上一节提到的Bagging方法通过Bootstrap的方式对全样本数据集进行抽样得到抽样子集，对不同子集使用同一模型进行拟合，然后投票得出最终预测结果。不同于Bagging，Boosting方法使用同一组数据集进行反复学习得到一系列简单模型，然后组合这些模型构成一个具有更强预测能力的机器学习模型。
对于Boosting方法来说，需要明确两个问题：第一个，每一轮学习应该如何改变数据的概率分布？第二个，如何组合各个弱分类器？常用的Boosting方法有Adaptive Boosting 和 Gradient Boosting，下面将介绍Adaboost算法。

2 Adaboost

（1）Adaboost原理

Adaboost提高那些被前一轮分类器错误分类的样本的权重，而降低那些被正确分类的样本的权重，这样一来，那些在上一轮分类器中没有得到正确分类的样本，由于其权重的增大而在后一轮的训练中“备受关注”，从而解决改变数据概率分布的问题；Adaboost组合各个弱分类器是通过采取加权多数表决的方式，具体来说，加大分类错误率低的弱分类器的权重，因为这些分类器能更好地完成分类任务，而减小分类错误率较大的弱分类器的权重，使其在表决中起较小的作用。
假设给定一个二分类的训练数据集： $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，特征 $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ，类别 $y_{i} \in \mathcal{Y}=\{-1,+1\}$ ， $\mathcal{X}$ 是特征空间， $\mathcal{Y}$ 是类别集合，输出最终分类器 $G (x)$ 。Adaboost算法如下：
(1) 初始化训练数据的分布： $D_{1}=\left(w_{11}, \cdots, w_{1 i}, \cdots, w_{1 N}\right), \quad w_{1 i}=\frac{1}{N}, \quad i=1,2, \cdots, N$
(2) 对于m=1,2,…,M ：
a. 使用具有权值分布 $D_m$ 的训练数据集进行学习，得到基本分类器： $G_{m}(x): \mathcal{X} \rightarrow\{-1,+1\}$
b. 计算 $G_m(x)$ 在训练集上的分类误差率 $e_{m}=\sum_{i=1}^{N} P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{N} w_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$