基于图的分布式遗传聚类算法
1. 引言
自20世纪中叶以来,计算机开始应用于数据分析和决策支持。在某些场景,如为用户推荐产品的系统,自动决策且无需详细解释可能就足够了。但在工程、工业或医学等严肃领域,人类可理解的解释对于证明半自动化决策的合理性,以及将数据转化为稳定、可转移和有充分依据的知识至关重要。聚类是有助于知识发现的重要分析任务之一,计算机通过聚类将大量数据分组,形成便于用户理解和透明呈现的簇。
在分析过程中,人机交互至少在两个步骤中至关重要:一是用户向计算机描述需求(例如,在特定应用中什么样的分组有益,何时两个对象应被视为相似);二是向用户展示分析结果。很多时候,用户无法用精确的逻辑公式表达需求,但有一些直觉,比如组内对象数量和属性值的方差等。通过使用核函数,我们的方法允许用户为聚类整体、每个簇以及两个对象的相似性设置要求。
在简单情况下,数据集由实数向量组成,通常可视为欧几里得空间中的点。然而,在许多应用(如医学和心理调查)中,存在大量分类属性,数据无法自然且真实地在欧几里得空间中表示。本文聚焦于此情况,采用基于图的数据表示范式,提出一种灵活的基于图的遗传聚类算法。核函数是该方法的核心组成部分,我们研究核函数并确定了有效核函数(有限变化核)的类别。由于该方法可自然并行化,在实现和测试时,我们将计算分布在多个CPU上。尽管问题复杂度为NP难,但实验表明,对于易于聚类的数据,算法具有良好的扩展性。我们还在真实医学数据上进行了实验,进一步证明了该方法的适用性。
2. 相关工作
许多作者致力于更好地理解聚类问题。Kleinberg引入聚类标准后,Ackerman和Ben - David提出了细化理论。聚类的稳定性在一些研究中得到分析,
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



