33、模型集成:提升与其他方法解析

模型集成:提升与其他方法解析

在机器学习领域,模型集成是一种强大的技术,它通过组合多个基础模型的预测结果,往往能取得比单个模型更好的性能。本文将深入探讨提升(Boosting)算法以及其他相关的模型集成方法。

提升算法(Boosting)

提升是一种集成技术,表面上与装袋(Bagging)类似,但它采用了比自助采样更复杂的技术来创建多样化的训练集。其基本思想简单而有吸引力:假设我们在一个数据集上训练了一个线性分类器,发现其训练错误率为 $\epsilon$。我们希望在集成中添加另一个分类器,使其在第一个分类器误分类的样本上表现更好。

一种方法是复制误分类的实例,这会使类均值向这些复制的实例移动。更好的方法是给误分类的实例赋予更高的权重,并修改分类器以考虑这些权重。例如,基本线性分类器可以将类均值计算为加权平均值。

权重的调整方式如下:将总权重的一半分配给误分类的示例,另一半分配给其他示例。由于初始权重是均匀的且总和为 1,当前分配给误分类示例的权重恰好是错误率 $\epsilon$,因此我们将它们的权重乘以 $1/2\epsilon$(假设 $\epsilon < 0.5$,这会如预期地增加权重)。正确分类示例的权重乘以 $1/2(1 - \epsilon)$,这样调整后的权重总和仍为 1。在下一轮中,我们做同样的事情,但在评估错误率时会考虑非均匀权重。

以下是一个权重更新的示例:
| | 预测为正 | 预测为负 | 总计 |
| — | — | — | — |
| 实际为正 | 24 | 16 | 40 |
| 实际为负 | 9 | 51 | 60 |
| 总计 | 33 | 67

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值