基于遗传算法的改进堆叠集成机器学习算法
1. 引言
如今,数据量呈现出爆炸式增长。据估计,我们每天会产生 2.5 千兆字节的数据,且世界上 90% 的数据是在过去两年内产生的。这一增长源于无处不在的信息收集设备,如用于收集气候信息的传感器、社交媒体帖子、数字图片和视频、购买交易记录以及手机 GPS 信号等。随着对大数据进行数据挖掘和分析的需求不断增加,传统的数据挖掘和学习算法在性能和扩展性上需要进一步提升。
分布式数据挖掘和集成学习这两个相关领域旨在解决数据扩展问题。分布式数据挖掘关注如何在不将数据集中到一个中心位置的情况下,有效地挖掘分布式数据。而集成学习技术则通过组合多个基于相同数据创建的分类器(通常通过投票)来创建一个元分类器,以提高性能。集成学习通常用于克服与基础学习算法相关的三种问题:统计问题、计算问题和表示问题。
在机器学习领域,设计集成的方法有很多。一种方法是通过操纵训练数据、输入特征或输出标签,或者在学习算法中引入随机性来创建集成。例如,Bagging 学习集成(即自助聚合)通过有放回的随机抽样生成多个与原始数据集样本大小相同的训练数据集,然后对每个自助样本应用学习算法,并在预测类别时使用多数投票,在预测数值时使用不同分类器预测值的平均值。Bagging 可以显著提高不稳定学习算法(如神经网络)的性能,但对稳定算法(如 k - 最近邻方法)可能效果不佳甚至会稍有恶化。
另一种方法是创建广义加法模型,选择最适合训练数据的组件模型的加权和。例如,Boosting 方法通过为误分类的实例分配更高的权重来提高任何“弱”学习算法的准确性,然后多次重新应用相同的算法,并使用加权投票来组合所得分类器系列的预测。
还有一种方法是将不同的学习
超级会员免费看
订阅专栏 解锁全文
2983

被折叠的 条评论
为什么被折叠?



