30、基于图的分布式遗传聚类算法

基于图的分布式遗传聚类算法

1. 引言

自20世纪中叶以来,计算机开始应用于数据分析和决策支持。在某些场景,如为用户推荐产品的系统,自动决策且无需详细解释可能就足够了。但在工程、工业或医学等严肃领域,人类可理解的解释对于证明半自动化决策的合理性,以及将数据转化为稳定、可转移和有充分依据的知识至关重要。聚类是有助于知识发现的重要分析任务之一,计算机通过聚类将大量数据分组,形成便于用户理解和透明呈现的簇。

在分析过程中,人机交互至少在两个步骤中至关重要:一是用户向计算机描述需求(例如,在特定应用中什么样的分组有益,何时两个对象应被视为相似);二是向用户展示分析结果。很多时候,用户无法用精确的逻辑公式表达需求,但有一些直觉,比如组内对象数量和属性值的方差等。通过使用核函数,我们的方法允许用户为聚类整体、每个簇以及两个对象的相似性设置要求。

在简单情况下,数据集由实数向量组成,通常可视为欧几里得空间中的点。然而,在许多应用(如医学和心理调查)中,存在大量分类属性,数据无法自然且真实地在欧几里得空间中表示。本文聚焦于此情况,采用基于图的数据表示范式,提出一种灵活的基于图的遗传聚类算法。核函数是该方法的核心组成部分,我们研究核函数并确定了有效核函数(有限变化核)的类别。由于该方法可自然并行化,在实现和测试时,我们将计算分布在多个CPU上。尽管问题复杂度为NP难,但实验表明,对于易于聚类的数据,算法具有良好的扩展性。我们还在真实医学数据上进行了实验,进一步证明了该方法的适用性。

2. 相关工作

许多作者致力于更好地理解聚类问题。Kleinberg引入聚类标准后,Ackerman和Ben - David提出了细化理论。聚类的稳定性在一些研究中得到分析,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值