数据处理与聚类算法的前沿探索
1. 不一致性度量的新特性
在逻辑与知识表示领域,不一致性度量是评估知识集合合理性的重要工具。有一种新的不一致性度量方法展现出两个显著特点。其一,它能够处理公式的多重集合,这意味着它可以更细致地分析包含重复元素的知识集合。其二,它打破了以往的二分法。过去,不一致性度量主要分为基于最小不一致子集的度量和基于字母表(即冲突中涉及的原子)的度量这两类。新的度量方法在一些情况下,即使最小不一致子集同构,或者字母表仅由一个命题符号组成,其不一致性值也会有所不同。这为更精准地衡量知识集合的不一致性提供了新的视角。
2. 聚类算法的挑战与需求
聚类作为一种无监督学习技术,在众多领域有着广泛应用,如图像处理、生物信息学和文本挖掘等。然而,在处理高维数据时,聚类面临诸多挑战。以文本聚类为例,文档通常用词频 - 逆文档频率(tf - idf)向量表示。由于文档可能涉及多个主题,数据集中往往存在重叠的聚类。而且,只有少数特征值在数据向量中显著大于零,这表明只有少数维度决定了聚类的形成。此外,数据集中不属于任何聚类的文档需要被识别为噪声和离群点。
3. 相关模糊聚类算法概述
为了解决上述聚类问题,有几种模糊聚类算法被提出。
- 模糊 c - 均值(FCM)算法 :该算法为每个数据对象分配一个属于每个聚类的隶属度。其目标函数为:
[J_m(U, V ; X) = \sum_{k = 1}^{n} \sum_{i = 1}^{c} u_{ik}^m d^2(v_i, x_k)]
其中,(c) 是聚类的数量,(u_{ik} \in [0, 1]) 是数据对象 (x_
超级会员免费看
订阅专栏 解锁全文
1789

被折叠的 条评论
为什么被折叠?



