数据流分类器与虚拟概念漂移处理算法解析
1. 精度更新集成分类器(AUE)概述
精度更新集成(Accuracy Updated Ensemble,AUE)是受精度加权集成(Accuracy Weighted Ensemble,AWE)算法启发而提出的一种新的流分类器。在所有数据集上(除了捐赠数据集两者精度相同外),AUE 的精度都高于 AWE,并且它所需的处理时间和内存是恒定的。
从 AUE 的更新技术来看,在分布较长时间保持稳定、没有概念漂移发生的时期,组件分类器可以在更多的示例上进行训练,从而可能变得更加准确。然而,用相似的示例更新多个组件可能会降低它们的多样性。
2. 虚拟概念漂移与 DEnBoost 算法
2.1 问题提出
在机器学习理论的许多应用中,通常假设基础概念不随时间变化。使用数据样本训练一个模型,并期望它在未来表现良好。但随着时间推移,如果新的观测数据来自输入空间中未见过的区域,模型可能很快就会过时。
概念漂移现象出现在生成数据流的系统中。如果数据及其对应标签的分布发生变化,任何基于当前可用样本训练的分类器都会过时。概念漂移可根据变化的速度(突然 vs 逐渐)和性质(虚拟 vs 真实)进行不同的分类。“真实概念漂移”表现为类标签的变化反映了概念的底层变化,而最常见的是“虚拟概念漂移”,即仅输入空间中数据点的分布发生变化。
2.2 模型定义
- 参考采样 :设 $D = {(x_i, t_i) : x_i \in X, t_i \in T }$ 为训练集,其中 $x_i$ 是输入值,$t_i$ 是目标标签。
超级会员免费看
订阅专栏 解锁全文
1302

被折叠的 条评论
为什么被折叠?



