30、基于图的分布式遗传聚类算法

最新推荐文章于 2025-10-10 02:21:57 发布

js777

最新推荐文章于 2025-10-10 02:21:57 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：人机交互：从理论到实践的探索文章标签：图聚类遗传算法分布式计算

本文链接：https://blog.youkuaiyun.com/js777/article/details/149383572

人机交互：从理论到实践的探索专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于图的分布式遗传聚类算法

1. 引言

自20世纪中叶以来，计算机开始应用于数据分析和决策支持。在某些场景，如为用户推荐产品的系统，自动决策且无需详细解释可能就足够了。但在工程、工业或医学等严肃领域，人类可理解的解释对于证明半自动化决策的合理性，以及将数据转化为稳定、可转移和有充分依据的知识至关重要。聚类是有助于知识发现的重要分析任务之一，计算机通过聚类将大量数据分组，形成便于用户理解和透明呈现的簇。

在分析过程中，人机交互至少在两个步骤中至关重要：一是用户向计算机描述需求（例如，在特定应用中什么样的分组有益，何时两个对象应被视为相似）；二是向用户展示分析结果。很多时候，用户无法用精确的逻辑公式表达需求，但有一些直觉，比如组内对象数量和属性值的方差等。通过使用核函数，我们的方法允许用户为聚类整体、每个簇以及两个对象的相似性设置要求。

在简单情况下，数据集由实数向量组成，通常可视为欧几里得空间中的点。然而，在许多应用（如医学和心理调查）中，存在大量分类属性，数据无法自然且真实地在欧几里得空间中表示。本文聚焦于此情况，采用基于图的数据表示范式，提出一种灵活的基于图的遗传聚类算法。核函数是该方法的核心组成部分，我们研究核函数并确定了有效核函数（有限变化核）的类别。由于该方法可自然并行化，在实现和测试时，我们将计算分布在多个CPU上。尽管问题复杂度为NP难，但实验表明，对于易于聚类的数据，算法具有良好的扩展性。我们还在真实医学数据上进行了实验，进一步证明了该方法的适用性。