遗传算法和模拟退火算法在数据流集成分类器训练中的应用
1. 引言
随着现代技术中实际应用数量的不断增加,数据流分类成为了一个快速发展的研究领域,如垃圾邮件过滤、天气预报等。然而,传统的批量训练算法在处理数据流时效率低下,因为数据流具有以下特点:
- 数据规模持续增长。
- 数据特征会随时间变化,即概念漂移(Concept Drift)。概念漂移可分为突然漂移(Sudden Drift)、渐进漂移(Gradual Drift)和循环上下文漂移(Recurring Context)等类型。
为了使分类器能够适应不断变化的数据流,有两种主要的训练方法:
- 在线算法:在从数据流中提取每个样本后立即进行更新。
- 基于块的学习:将数据流中的样本临时收集到一个固定大小的数据块中,当数据块填满后,使用该数据块更新系统,类似于批量训练,但仅使用最后一个数据块中的样本。
集成方法通过融合多个基本分类器,能够显著提高分类准确率。但集成分类器不仅需要对基本分类器进行训练,还需要更新融合模型。常见的集成更新方法有按需更新和持续更新两种。
在之前的工作中,提出了进化自适应集成(Evolutionary Adapted Ensemble, EAE)算法,该算法维护一个小的投票委员会和一个大的分类器池,移除的分类器会被放入池中以备后续使用。本文将比较两种流行的优化算法在 EAE 训练中的应用:遗传算法(Genetic Algorithm, GA)和模拟退火算法(Simulated Annealing, SA)。
2. 集成分类器模型
集成分类器的目标是将一个对象分配到预定义的类别集合 $M$ 中的某一个类
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



