向量空间嵌入图的聚类实验
1. 聚类任务的背景
聚类作为无监督学习的重要方法,旨在发现数据中的自然结构。它通过对数据集进行分组,揭示数据内部的模式和关系。然而,聚类的一大挑战在于,它可能会强加一个人为的结构,而不是真正揭示数据中的固有结构。因此,选择合适的聚类算法和验证指标显得尤为重要。
在模式识别领域,k-means算法因其简单且高效的特点而广受欢迎。然而,对于图数据,直接应用k-means并不现实,因为图数据通常不具备欧几里得空间的特性。为了解决这个问题,可以将图数据嵌入到向量空间中,然后再应用k-means或其他聚类算法。
2. 聚类实验的设计
在本实验中,为了简化实验设计,仅选择了三种原型选择策略(sps-c、bps-c 和 k-cps-c)来进行聚类任务,而不是对所有嵌入子系统进行全面评估。这三种策略的选择基于它们在分类实验中的优越表现。
2.1 原型选择策略
- sps-c : 中心原型选择,选择位于训练集中心的图作为原型。
- bps-c : 边界原型选择,选择边界处的图作为原型。
- k-cps-c : 类别中心原型选择,按类别选择中心图作为原型。
每种策略的选择旨在确保嵌入过程的有效性和代表性。以下是三种策略的对比:
策略 | 描述 |
---|