符号数据聚类的差异函数
1. 差异函数的定义和背景
在数据挖掘和聚类分析领域,差异函数(或距离度量)扮演着至关重要的角色。它们用于衡量数据点之间的相似性或不相似性,进而帮助聚类算法将数据点分配到不同的簇中。对于符号数据(Symbolic Data),这些差异函数尤为重要,因为符号数据不仅包含传统的数值和分类数据,还包括更复杂的结构,如区间数据、多值定性数据和模态数据。符号数据聚类的目标是根据这些复杂数据的内在相似性,将对象划分为同质且分离良好的子集。
符号数据分析(Symbolic Data Analysis, SDA)是一个相对较新的领域,旨在为通过多值变量描述的聚合数据提供适当的方法。SDA的潜力在于它能够处理更复杂的现实世界数据,而不仅仅是单一值的数据。为了实现这一目标,研究人员提出了多种差异函数,但至今很少有人关注这些函数在实际数据中的适用性和比较研究。本文将探讨几种著名差异函数在符号数据聚类中的应用,并通过实证研究进行比较。
2. 选择的差异函数
在符号数据分析文献中,已经提出了多种差异函数。为了比较它们的效率,我们选择了五种具有代表性的差异函数进行研究。这些函数分别是:
2.1 Gowda 和 Diday 的差异函数
Gowda 和 Diday 提出了一种基于三个组成部分的差异度量方法,每个部分处理特定的差异方面。该函数及其组成部分定义如下:
[ d(x_k, g_i) = \sum_{j=1}^{p} D_c(x_j^k, g_j^i) + D_s(x_j^k, g_j^i) + D_p(x_j^k, g_j^i) ]
其中,
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



