集成学习与情感分析:从理论到实践
1. 集成学习概述
集成学习是一种将不同分类模型组合起来的技术,旨在消除单个模型的弱点,从而得到性能更稳定、表现更出色的模型,在工业应用和机器学习竞赛中颇具吸引力。常见的集成学习方法有装袋法(Bagging)和提升法(Boosting)。
1.1 装袋法(Bagging)
装袋法是一种通过从训练数据集中抽取随机自助样本,并通过多数投票组合各个训练好的分类器来降低模型方差的有效技术。不过,它在减少模型偏差方面效果不佳,因此通常对低偏差的分类器集合执行装袋操作,例如未修剪的决策树。
1.2 提升法(Boosting)
提升法的集成由非常简单的基础分类器(即弱学习器)组成,这些弱学习器通常仅比随机猜测略好,决策树桩就是一个典型的弱学习器例子。提升法的关键在于关注难以分类的训练示例,让弱学习器从误分类的训练示例中学习,以提高集成的性能。
1.2.1 原始提升算法步骤
原始提升算法使用从训练数据集中无放回抽取的随机子集,其步骤可总结如下:
1. 从训练数据集 D 中无放回地抽取一个随机子集 $d_1$,用于训练一个弱学习器 $C_1$。
2. 从训练数据集中无放回地抽取第二个随机训练子集 $d_2$,并加入 50% 之前误分类的示例,训练一个弱学习器 $C_2$。
3. 找出训练数据集 D 中 $C_1$ 和 $C_2$ 意见不一致的训练示例 $d_3$,训练第三个弱学习器 $C_3$。
4. 通过多数投票组合弱学习器 $C_1$、$C_2$ 和 $C_3$。
与装袋模型相比,提升法可以减少偏差和方差,但实
超级会员免费看
订阅专栏 解锁全文
1262

被折叠的 条评论
为什么被折叠?



