数据流:概述与科学应用
1. 数据流聚类
在数据流聚类中,有几种特殊情况需要考虑:
- 隐式跟踪统计信息 :可以通过隐式方式跟踪微簇的衰减值,只要没有新的数据点加入微簇,各微簇的统计信息会按相同因子衰减。当有新数据点加入时,则需显式更新统计信息,而其他计数仍可隐式维护。
- 不确定数据 :在传感器网络等场景中,数据可能存在噪声和不确定性。此时可将不确定性信息添加到微簇统计信息中,以进行更稳健的聚类计算。
- 文本和分类数据 :与定量数据不同,此类数据聚类时存储的统计信息是离散属性的频率计数,以及属性间的相关性计数。已有高效算法用于处理文本和分类数据流聚类,且支持基于衰减的方法。
2. 数据流分类
分类问题是数据流挖掘中研究较多的问题之一,由于数据流会随时间演变(即概念漂移),因此需要设计有效的算法来考虑时间局部性。常见的分类方法如下:
2.1 VFDT 方法
VFDT(非常快速决策树)方法通过采样近似创建与传统学习器相似的决策树。它使用当前最佳属性进行树的分裂,确保使用足够的示例以满足 Hoeffding 界,使输出接近传统学习器。构建决策树时,关键在于选择分裂属性,可通过用户指定的可接受误差阈值来打破近似平局。当处理足够多的流记录时,特定分裂变量的选择正确的概率至少为 1 - δ。该方法已扩展到处理演化数据流的 CVFDT 框架,它在固定滑动窗口上运行 VFDT 以保持分类器的更新。此外,还有改进算法可处理数值属性并减少基于 Hoeffding 界计算的样本大小,提高效率和空间利用率。 <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



