Adaboost的推导

最新推荐文章于 2023-03-23 00:11:49 发布

原创最新推荐文章于 2023-03-23 00:11:49 发布 · 335 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#集成学习 #机器学习

机器学习专栏收录该内容

1 篇文章

订阅专栏

Adaboost的推导

加法模型
指数损失函数
Adaboost算法流程
算法推导
参考文献

加法模型

$\sum_{t=1}^{T}{\alpha_th_t(x)} \\ 构造强分类器为弱分类器的线性组合$

指数损失函数

$\sum_{i=1}^NL(y_i,H(x_i))=\sum_{i=1}^NL(y_i,\sum_{t=1}^{T}{\alpha_th_t(x)})=\sum_{i=1}^N\exp(-y_i\sum_{t=1}^{T}{\alpha_th_t(x_i)})$
y的取值只有{-1,1}, 当H(x)越接近y的时候 $-y\sum_{t=1}^{T}{\alpha_th_t(x)}$ 越大, 故 $L (y, H (x))$ 越小

Adaboost算法流程

算法推导

构造一个 $f_t(x)$
$f_t(x)$ 代表前t个h(x)的线性组合: $f_t(x) = f_{t-1}(x)+\alpha_th_t(x)$ 。其中, $f_1(x) = \alpha_1h_1(x)$
计算弱分类器的权重 $\alpha_t$ , 样本权重 $\overline{w}_{ti}$
每一轮迭代的时候计算 $\arg\min_{\alpha_t,h_t} \sum_{i=1}^{N}\exp(-y_i(f_{t-1}(x)+\alpha_th_t(x)))$ , 计算T-1次(t=(2…T))就能得到能让指数损失函数取得最小的T个 $\alpha$ 与 $\overline{w}$
- 首先计算 $\arg\min_{h_t}\sum_{i=1}^N\exp(-y_i(f_{t-1}(x_i)+\alpha_th_t(x_i)))$
  $\Rightarrow\arg\min_{h_t}\sum_{i=1}^{N}\exp(-y_i(f_{t-1}(x_i)) * \exp(y_ih_t(x_i)) \\ \Rightarrow \arg\min_{h_t}\sum_{i=1}^N\overline{w}_{ti}I(h_t(x_i) \ne y_i) \\ \begin{cases} I(\text{A $\neq$ B}) = 1, & \text{A $\neq$ B} \\[5ex] I(\text{A $\neq$ B}) = 0, & \text{A = B} \end{cases}$
- 定义 $\overline{w}_{ti} = \exp (-y_if_{t-1}(x_i))$ 为样本权重
- 这个过程相当于第三行伪代码
计算弱分类器权重 $\alpha_t$
把已知的 $h_t(x)$ 代入计算 $\arg\min_{\alpha_t}\sum_{i=1}^N\exp(-y_i(f_{t-1}(x_i)+\alpha_th_t(x_i)))$
$原式=\sum_{i=1}^N\exp(-y_i(f_{t-1}(x_i)+\alpha_th_t(x_i))) \\ = \sum_{i=1}^N\overline{w}_{ti}*exp(-y_i\alpha_th_t(x_i)) \\ 将样本分成y_i=h_t(x_i)的部分和y_i \neq h_t(x_i)的部分 \\ 原式=\sum_{y_i=h_t(x_i)}\overline{w}_{ti}\exp(-\alpha_t) + \sum_{y_i \neq h_t(x_i)}\overline{w}_{ti}\exp(\alpha_t) \\ = \sum_{i=1}^N\overline{w}_{ti}\exp(-\alpha_t)-\sum_{y_i\neq h_t(x_i)}\overline{w}_{ti}\exp(-\alpha_t)+\sum_{i=1}^N\overline{w}_{ti}\exp(\alpha_t)*I(y_i\neq h_t(x_i)) \\ = \sum_{i=1}^N\overline{w}_{ti}\exp(-\alpha_t)-\sum_{i=1}^N\overline{w}_{ti}\exp(-\alpha_t)*I(y_i\neq h_t(x_i))+\sum_{i=1}^N\overline{w}_{ti}\exp(\alpha_t)*I(y_i\neq h_t(x_i)) \\ = (e^{\alpha_t}-e^{-\alpha_t})\sum_{i=1}^N\overline{w}_{ti}*I(y_i\neq h_t(x_i))+e^{-\alpha_t}\sum_{i=1}^N \overline{w}_{ti} \\ 对\alpha_t求导 \Rightarrow \sum_{i=1}^N \overline{w}_{ti}I(y_i\neq h_t(x_i))(e^{\alpha_t}+e^{-\alpha_t}) - \sum_{i=1}^N\overline{w}_{ti}e^{-\alpha_t} \\ 令上式=0 \Rightarrow \sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t(x_i))(e^{\alpha_t}+e^{-\alpha_t}) = \sum_{i=1}^N\overline{w}_{ti}e^{-\alpha_t} \\ \Rightarrow \sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t(x_i))(e^{2\alpha_t}+1) = \sum_{i=1}^N\overline{w}_{ti} \\ \Rightarrow e^{2\alpha_t} = \frac{\sum_{i=1}^N\overline{w}_{ti}}{\sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t{x_i})}-1 \\ \alpha_t = \frac{1}{2} \ln (\frac{\sum_{i=1}^N\overline{w}_{ti}}{\sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t(x_i))}-1) \\ \alpha_t = \frac{1}{2}\ln(\frac{1-\frac{\sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t(x_i))}{\sum_{i=1}^N\overline{w}_{ti}}}{\frac{\sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t(x_i))}{\sum_{i=1}^N\overline{w}_{ti}}}) \\ 其中 \frac{\sum_{i=1}^N\overline{w}_{ti}I(y_i\neq h_t(x_i))}{\sum_{i=1}^N\overline{w}_{ti}} 就是错误率, 分子是错误的个数*样本权重, 分母是所有样本个数*样本权重$
故, 证明出第6行伪代码 $\alpha_t = \frac{1}{2}ln(\frac{1-\epsilon_t}{\epsilon_t})$
计算 $\overline{w}_{ti}$
$\\ 已知 \ \overline{w}_{ti} = \exp(-y_if_{t-1}(x_i)) \\ 能得到\ \overline{w}_{m+1,i} = \exp(-y_if_t(x_i)) \\ = \exp(-y_i(f_{t-1}(x_i)+\alpha_th_t(x_i))) \\ = \exp(-y_if_{t-1}(x_i))*\exp(-y_i\alpha_th_t(x_i)) \\ 故, \overline{w}_{t+1,i} = \overline{w}_{ti}*\exp(-y_i\alpha_th_t(x_i)) \\ 与伪代码第7条只差一个规范因子z$