42、数据流:概述与科学应用

数据流:概述与科学应用

1. 数据流聚类

在数据流聚类中,有几种特殊情况需要考虑:
- 隐式跟踪统计信息 :可以通过隐式方式跟踪微簇的衰减值,只要没有新的数据点加入微簇,各微簇的统计信息会按相同因子衰减。当有新数据点加入时,则需显式更新统计信息,而其他计数仍可隐式维护。
- 不确定数据 :在传感器网络等场景中,数据可能存在噪声和不确定性。此时可将不确定性信息添加到微簇统计信息中,以进行更稳健的聚类计算。
- 文本和分类数据 :与定量数据不同,此类数据聚类时存储的统计信息是离散属性的频率计数,以及属性间的相关性计数。已有高效算法用于处理文本和分类数据流聚类,且支持基于衰减的方法。

2. 数据流分类

分类问题是数据流挖掘中研究较多的问题之一,由于数据流会随时间演变(即概念漂移),因此需要设计有效的算法来考虑时间局部性。常见的分类方法如下:

2.1 VFDT 方法

VFDT(非常快速决策树)方法通过采样近似创建与传统学习器相似的决策树。它使用当前最佳属性进行树的分裂,确保使用足够的示例以满足 Hoeffding 界,使输出接近传统学习器。构建决策树时,关键在于选择分裂属性,可通过用户指定的可接受误差阈值来打破近似平局。当处理足够多的流记录时,特定分裂变量的选择正确的概率至少为 1 - δ。该方法已扩展到处理演化数据流的 CVFDT 框架,它在固定滑动窗口上运行 VFDT 以保持分类器的更新。此外,还有改进算法可处理数值属性并减少基于 Hoeffding 界计算的样本大小,提高效率和空间利用率。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值