42、数据流：概述与科学应用

seed

于 2025-11-17 14:36:18 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：科学数据挖掘与知识发现文章标签：数据流聚类数据流分类频繁模式挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/seed/article/details/154969821

科学数据挖掘与知识发现专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据流：概述与科学应用

1. 数据流聚类

在数据流聚类中，有几种特殊情况需要考虑：
- 隐式跟踪统计信息 ：可以通过隐式方式跟踪微簇的衰减值，只要没有新的数据点加入微簇，各微簇的统计信息会按相同因子衰减。当有新数据点加入时，则需显式更新统计信息，而其他计数仍可隐式维护。
- 不确定数据 ：在传感器网络等场景中，数据可能存在噪声和不确定性。此时可将不确定性信息添加到微簇统计信息中，以进行更稳健的聚类计算。
- 文本和分类数据 ：与定量数据不同，此类数据聚类时存储的统计信息是离散属性的频率计数，以及属性间的相关性计数。已有高效算法用于处理文本和分类数据流聚类，且支持基于衰减的方法。

2. 数据流分类

分类问题是数据流挖掘中研究较多的问题之一，由于数据流会随时间演变（即概念漂移），因此需要设计有效的算法来考虑时间局部性。常见的分类方法如下：

2.1 VFDT 方法

VFDT（非常快速决策树）方法通过采样近似创建与传统学习器相似的决策树。它使用当前最佳属性进行树的分裂，确保使用足够的示例以满足 Hoeffding 界，使输出接近传统学习器。构建决策树时，关键在于选择分裂属性，可通过用户指定的可接受误差阈值来打破近似平局。当处理足够多的流记录时，特定分裂变量的选择正确的概率至少为 1 - δ。该方法已扩展到处理演化数据流的 CVFDT 框架，它在固定滑动窗口上运行 VFDT 以保持分类器的更新。此外，还有改进算法可处理数值属性并减少基于 Hoeffding 界计算的样本大小，提高效率和空间利用率。 <

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。