11、高效的基于集合的可变流聚类算法

open4

于 2025-06-20 13:16:20 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据与信息管理的前沿探索文章标签： SetClust 数据流聚类并查集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/open4/article/details/149367686

大数据与信息管理的前沿探索专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

高效的基于集合的可变流聚类算法

1. 引言

聚类是无监督机器学习中极为重要的问题。多数聚类模型需要处理待聚类的全部点集，但数据流式聚类模型允许在数据到达时进行聚类。不过，现有的数据流式聚类问题通常需要事先知道聚类的数量。

本文提出的SetClust算法旨在解决可变流式聚类问题，该问题处理数据逐个到达的情况，且事先不知道要形成的聚类数量。算法不仅要对数据进行聚类，还要在线发现正确的聚类数量，并且尽量使预测的聚类数量在任何时刻都尽可能小。

为了评估算法性能，实验使用了合成数据集，对比了SetClust算法和其他3种数据流式聚类算法。

2. 背景知识

并查集操作 ：该数据结构能跟踪元素集合，存储最少信息。支持两种操作：查询两个元素是否在同一集合；将两个集合合并为一个集合。
V - measure ：这是一种基于熵的度量，通过计算不同同质性和完整性得分的调和平均值，明确衡量同质性和完整性标准的满足程度。
Clustream ：基于微簇结构存储流数据信息，有在线处理流数据和离线使用k - means创建聚类两个阶段。
ClusTree ：是自适应索引结构，存储流数据的汇总信息，还会对数据进行老化处理以消除不必要信息。
DenStream ：基于密度，能处理任意形状的聚类，可轻松处理离群点。

3. SetClust算法

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。