Adaboost算法解释

最新推荐文章于 2025-02-13 11:02:26 发布

bingxiash

最新推荐文章于 2025-02-13 11:02:26 发布

阅读量777

点赞数

分类专栏：机器学习算法

本文链接：https://blog.youkuaiyun.com/u014168855/article/details/104511922

版权

机器学习算法专栏收录该内容

18 篇文章

订阅专栏

Adaboost算法是一种基于加法模型、指数损失函数和前向分布算法的二类分类学习方法。通过逐步优化基函数及其系数，实现损失函数的最小化。本文详细介绍了Adaboost算法的工作原理和前向分布算法的框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（3）Adaboost算法解释：
AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法时的二类分类学习方法。
(i)前向分布算法
考虑加法模型
$f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$
其中，基函数： $b\left(x ; \gamma_{m}\right)，$ 基函数参数： $\gamma_{m}$ ，基函数的系数： $\beta_{m}$ 。
在给定训练数据集及损失函数 $\mathrm{L}(\mathrm{y}, \mathrm{f}(\mathrm{x}))$ 的条件下，学习加法模型f(x)成为经验风险最小化即损失函数最小化问题：
$\min _{\beta_{m}, \gamma_{m}} \sum_{i=1}^{N} L\left(y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i} ; \gamma_{m}\right)\right)$
算法简化，如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近上式，及每步只优化损失函数： $\min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, \beta b\left(x_{i} ; \gamma\right)\right)$
前向分步算法的算法框架
输入：训练数据集 $\mathrm{T}=\{(\mathrm{x} 1, \mathrm{y} 1),(\mathrm{x} 2, \mathrm{y} 2) \ldots(\mathrm{xN}, \mathrm{yN})\}$ ，损失函数 $\mathrm{L}(\mathrm{y}, \mathrm{f}(\mathrm{x}))$ ，基函数集 $\{\mathrm{b}(\mathrm{x} ; \gamma)\}$ 。
输出：加法模型 $\mathrm{f}(\mathrm{x})$ 。
算法步骤：
初始化 $\mathrm{f}_{0}(\mathrm{x})=0$ ；
对于 $\mathrm{m}=1,2, \ldots \mathrm{M}$
极小化损失函数 $\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N}\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$ ，得到参数 $\beta_{m} \gamma_{m}$
更新当前模型： $f_{m}(x)=f_{m-1}(x)+\beta_{m} b\left(x ; \gamma_{m}\right)$
得到加法模型： $f(x)=f_{M}(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\right)$
(ii)前向分布算法和Adaboost算法
Adaboost算法是前向分布算法的特例，这时，模型是基本分类器组成的加法模型，损失函数是指数函数。损失函数取 $f(x))=\exp (-y f(x))$
证明：
假设经过m-1轮迭代，前向分步算法已经得到 $\begin{aligned} \mathrm{f}_{\mathrm{m}-1}(\mathrm{x}): & f_{m-1}(x)=f_{m-2}(x)+\alpha_{m-1} G_{m-1}(x) \\ &=\alpha_{1} G_{1}(x)+\cdots+\alpha_{m-1} G_{m-1}(x) \end{aligned}$
在第m轮迭代得到 $\alpha_{m}, G_{m}(x)$ 和 $f_{m}(x)$ ；
目标是使前向分布算法得到的 $\alpha_{m}, G_{m}(x)$ 和 $f_{m}(x)$ 在训练数据集上损失最小，即 $\left(\alpha_{m}, G_{m}(x)\right)=\arg \min _{\alpha, G} \sum_{i=1}^{N} \exp \left(-y_{i}\left(f_{m-1}\left(x_{i}\right)+\alpha G\left(x_{i}\right)\right)\right)$
进一步：
$\left(\alpha_{m}, G_{m}(x)\right)=\arg \min _{\alpha, G} \sum_{i=1}^{N} \bar{w}_{m i} \exp \left(-y_{i} \alpha G\left(x_{i}\right)\right)$
其中， $\bar{w}_{m i}=\exp \left(-y_{i} f_{m-1}\left(x_{i}\right)\right)$ ， $\bar{w}_{mi}$ 既不依赖 $\alpha$ 也不依赖G,但依赖于 $f_{m-1}(x)$ ，所以每轮迭代都会发生变化。
求基本分类器 $\mathrm{G}^{*}(\mathrm{x})$
对于任意的 $\alpha>0$ ,是上式最小的G(x)由下式得到：
$G_{m}^{*}(x)=\arg \min _{G} \sum_{i=1}^{N} \bar{w}_{m i} I\left(y_{i} \neq G\left(x_{i}\right)\right)$ , 其中， $\bar{w}_{m i}=\exp \left(-y_{i} f_{m-1}\left(x_{i}\right)\right)$
权值计算：
求权值：
在这里插入图片描述