高效的基于集合的可变流聚类算法
1. 引言
聚类是无监督机器学习中极为重要的问题。多数聚类模型需要处理待聚类的全部点集,但数据流式聚类模型允许在数据到达时进行聚类。不过,现有的数据流式聚类问题通常需要事先知道聚类的数量。
本文提出的SetClust算法旨在解决可变流式聚类问题,该问题处理数据逐个到达的情况,且事先不知道要形成的聚类数量。算法不仅要对数据进行聚类,还要在线发现正确的聚类数量,并且尽量使预测的聚类数量在任何时刻都尽可能小。
为了评估算法性能,实验使用了合成数据集,对比了SetClust算法和其他3种数据流式聚类算法。
2. 背景知识
- 并查集操作 :该数据结构能跟踪元素集合,存储最少信息。支持两种操作:查询两个元素是否在同一集合;将两个集合合并为一个集合。
- V - measure :这是一种基于熵的度量,通过计算不同同质性和完整性得分的调和平均值,明确衡量同质性和完整性标准的满足程度。
- Clustream :基于微簇结构存储流数据信息,有在线处理流数据和离线使用k - means创建聚类两个阶段。
- ClusTree :是自适应索引结构,存储流数据的汇总信息,还会对数据进行老化处理以消除不必要信息。
- DenStream :基于密度,能处理任意形状的聚类,可轻松处理离群点。
超级会员免费看
订阅专栏 解锁全文
1645

被折叠的 条评论
为什么被折叠?



