集成学习与相关概念解析
1. 集成学习基础
1.1 Boosting算法
Boosting算法在更新模型分布时,若 $h_t(x_i)$ 正确,将 $D_t(i)$ 乘以 $1/2(1 - \epsilon_t)$;否则乘以 $1/2\epsilon_t$。这种更新使模型依次最小化错误率的指数界。从真实分布 $D$ 中抽取的数据样本 $S$ 的训练错误率满足以下界:
[P_{x,y\in S}(yH(x) < 0) \leq \prod_{t = 1}^{T} 2\sqrt{\epsilon_t(1 - \epsilon_t)}]
当 $\epsilon_t < 0.5$ 时,训练错误率的上界随 $T$ 单调递减。
Schapire还针对投票系统的泛化误差,基于投票间隔给出了界:
[P_{x,y \sim D}(H(x) \neq y) \leq P_{x,y\in S}(yH(x) < \gamma) + \tilde{O}\left(\sqrt{\frac{d}{N\gamma^2} - \ln\delta}\right)]
其中,泛化误差小于等于训练误差加上一个依赖于投票间隔的项。训练数据中的最小间隔越大,测试误差越低。
1.2 专家混合模型
专家混合模型架构是一种广泛研究的创建模型组合的范式。其原理是某些模型能够“专门化”到输入空间的特定部分。通常以神经网络或其他能估计概率的模型为基础模型。门控网络接收与组件模型相同的输入,其输出作为线性组合器的权重。门控网络负责为任何给定输入学习专门模型(“专家”)的适当加权组合,从而将输入空间在专家之间进行划分。常见的训练方法是期
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



