模型集成:提升与其他方法解析
在机器学习领域,模型集成是一种强大的技术,它通过组合多个基础模型的预测结果,往往能取得比单个模型更好的性能。本文将深入探讨提升(Boosting)算法以及其他相关的模型集成方法。
提升算法(Boosting)
提升是一种集成技术,表面上与装袋(Bagging)类似,但它采用了比自助采样更复杂的技术来创建多样化的训练集。其基本思想简单而有吸引力:假设我们在一个数据集上训练了一个线性分类器,发现其训练错误率为 $\epsilon$。我们希望在集成中添加另一个分类器,使其在第一个分类器误分类的样本上表现更好。
一种方法是复制误分类的实例,这会使类均值向这些复制的实例移动。更好的方法是给误分类的实例赋予更高的权重,并修改分类器以考虑这些权重。例如,基本线性分类器可以将类均值计算为加权平均值。
权重的调整方式如下:将总权重的一半分配给误分类的示例,另一半分配给其他示例。由于初始权重是均匀的且总和为 1,当前分配给误分类示例的权重恰好是错误率 $\epsilon$,因此我们将它们的权重乘以 $1/2\epsilon$(假设 $\epsilon < 0.5$,这会如预期地增加权重)。正确分类示例的权重乘以 $1/2(1 - \epsilon)$,这样调整后的权重总和仍为 1。在下一轮中,我们做同样的事情,但在评估错误率时会考虑非均匀权重。
以下是一个权重更新的示例:
| | 预测为正 | 预测为负 | 总计 |
| — | — | — | — |
| 实际为正 | 24 | 16 | 40 |
| 实际为负 | 9 | 51 | 60 |
| 总计 | 33 | 67
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



