20、集成学习与情感分析:从理论到实践

集成学习与情感分析:从理论到实践

1. 集成学习概述

集成学习是一种将不同分类模型组合起来的技术,旨在消除单个模型的弱点,从而得到性能更稳定、表现更出色的模型,在工业应用和机器学习竞赛中颇具吸引力。常见的集成学习方法有装袋法(Bagging)和提升法(Boosting)。

1.1 装袋法(Bagging)

装袋法是一种通过从训练数据集中抽取随机自助样本,并通过多数投票组合各个训练好的分类器来降低模型方差的有效技术。不过,它在减少模型偏差方面效果不佳,因此通常对低偏差的分类器集合执行装袋操作,例如未修剪的决策树。

1.2 提升法(Boosting)

提升法的集成由非常简单的基础分类器(即弱学习器)组成,这些弱学习器通常仅比随机猜测略好,决策树桩就是一个典型的弱学习器例子。提升法的关键在于关注难以分类的训练示例,让弱学习器从误分类的训练示例中学习,以提高集成的性能。

1.2.1 原始提升算法步骤

原始提升算法使用从训练数据集中无放回抽取的随机子集,其步骤可总结如下:
1. 从训练数据集 D 中无放回地抽取一个随机子集 $d_1$,用于训练一个弱学习器 $C_1$。
2. 从训练数据集中无放回地抽取第二个随机训练子集 $d_2$,并加入 50% 之前误分类的示例,训练一个弱学习器 $C_2$。
3. 找出训练数据集 D 中 $C_1$ 和 $C_2$ 意见不一致的训练示例 $d_3$,训练第三个弱学习器 $C_3$。
4. 通过多数投票组合弱学习器 $C_1$、$C_2$ 和 $C_3$。

与装袋模型相比,提升法可以减少偏差和方差,但实

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值