聚类算法性能评估与高效K - 中心点聚类算法解析
聚类性能评估
在数据聚类中,评估聚类算法的性能至关重要。以下介绍两种重要的评估指标和一种聚类趋势测量方法。
Fowlkes–Mallows指数
Fowlkes–Mallows指数用于计算聚类算法返回的聚类结果与基准分类之间的相似度。其计算公式如下:
[FM = \sqrt{\frac{TP}{TP + FP} \cdot \frac{TP}{TP + FN}}]
其中,TP、FP、FN分别代表真正例、假正例和假反例。该指数的得分范围从0到1,值越高表示聚类结果与基准分类越相似。当FMI得分接近0.0时,表明两个标签分配基本独立;而接近1的值则表示有显著的一致性;完美的标签分配得分是1.0。与Jaccard指数类似,Fowlkes–Mallows指数不对聚类结构做任何假设,可用于比较不同的聚类算法,如K - 均值算法和谱聚类算法的结果。
聚类趋势测量 - Hopkins统计量
测量聚类趋势是为了确定待聚类数据中存在聚类的程度,可在尝试聚类之前作为初始测试。一种方法是将数据与随机数据进行比较,因为平均而言,随机数据不应有聚类。
Hopkins统计量是一种常用的测量聚类趋势的方法。设X是d维空间中N个数据点的集合,从X中无放回地随机抽取m(m ≪ N)个数据点,记为(x_i),同时生成m个均匀随机分布的数据点集合Y。定义两个距离度量:(u_i)为(y_i \in Y)到其在X中最近邻的距离,(w_i)为(x_i \in X)到其在X中最近邻的距离。Hopkins统计量定义为:
[H = \frac{\sum_{i = 1}^{m} u_i}
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



