不确定环境下的聚类算法:从基础到改进
在数据处理领域,聚类算法是一种重要的无监督学习方法,它能在没有类别标签的情况下对数据进行分类。然而,如何评估聚类结果以及如何优化聚类算法是值得深入研究的问题。本文将详细介绍聚类算法的验证函数、特征加权模糊聚类以及基于差分进化的加权模糊聚类算法。
1. 聚类的验证函数
聚类算法处理的数据没有类别标签,但聚类结果用于标记数据的类别。在没有任何先验知识的前提下,评估聚类结果是一个值得研究的问题。为了评估聚类算法,研究人员引入了聚类准则函数,它不仅可以评估聚类质量,还可以为聚类算法选择最优参数值。常用的聚类准则函数包括误差平方和与离散度。
1.1 误差平方和准则
假设有 $n$ 个对象 $X = {x_1, \ldots, x_n}$,它们被聚类算法划分为 $K$ 个类别,每个类别的聚类中心为 $v_i$($i = 1, \ldots, K$),每个类别有 $n_i$ 个数据。每个类别的聚类中心 $v_i$ 定义为:
[v_i = \frac{1}{n_i} \sum_{x_j \in v_i} x_j]
误差平方和准则定义为:
[J_e = \sum_{i = 1}^{K} \sum_{x_j \in v_i} |x_j - v_i|]
其中 $|x_j - v_i|$ 是第 $i$ 类数据与其聚类中心 $v_i$ 之间的差异。公式 (3.11) 表示每个数据点与其中心之间的距离之和,即误差平方和。误差平方和准则值 $J_e$ 越小,数据与其聚类中心越接近,得到的聚类越紧凑,表明聚类结果越好。
当每个类的聚类中心未定义时,误差平方和准则 $J_e$ 可以描述为: <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



