流数据聚类与聚类质量评估:方法、实验与创新策略
在数据挖掘与分析领域,流数据聚类以及聚类质量评估是至关重要的研究方向。流数据聚类旨在从连续不断的数据流中发现有意义的聚类结构,而聚类质量评估则用于衡量聚类结果的优劣。下面将详细介绍流数据聚类算法及其质量评估的相关内容。
流数据聚类算法
聚类形成与连接性
流数据聚类算法中,首先会选择权重最高的单元作为聚类形成的种子。为了从网格中发现聚类,需要确定与种子相连的单元。两个单元 C1(k1, …, kd) 和 C2(k′1, …, k′d) 相连的定义为:对于所有的 i,要么 ki = k′i,要么 |ki - k′i| = 1。
聚类生成采用贪心方法,从种子开始迭代进行。一旦找到一个聚类,就将该聚类的成员单元从池中移除,然后以新的种子开始搜索另一个聚类。这种策略可以生成任意形状和大小的排他性聚类,并且保证不会遗漏任何存在的聚类。该过程的最坏情况复杂度为 O(NumCellNumClust),其中 NumCell 是池中的单元数量,NumClust 是发现的聚类数量。
不过,该算法的完整性可能导致报告的聚类数量非常大。因此,可选择将在至少一半维度空间上重叠且对应种子相邻的所有聚类进行合并。
聚类描述
对于每个发现的聚类,会向用户报告种子的签名、边界和密度。种子签名和聚类边界能让用户了解聚类的形状,分析聚类中每个维度的分布情况可以了解该维度的紧凑性。如果聚类中所有单元在某个维度上具有相同的区间,那么该维度就是最紧凑的维度(即 100% 紧凑)。
噪声检测
根据指定的质量标准,不属于任何发现的聚类的数据点代表数据中
超级会员免费看
订阅专栏 解锁全文
2182

被折叠的 条评论
为什么被折叠?



