27、受限聚类与数据隐私中的聚类应用综述

最新推荐文章于 2025-10-31 04:01:05 发布

原创最新推荐文章于 2025-10-31 04:01:05 发布 · 18 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#受限聚类 #数据隐私 #邻接约束

无监督学习算法精要专栏收录该内容

61 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

受限聚类与数据隐私中的聚类应用综述

在许多领域，对数据对象进行合理分组的需求自然出现，聚类因此在科学家和分析师中非常受欢迎。然而，传统聚类方法仅使用未标记的数据对象作为输入，可能会从数据中提取出不相关的信息。为解决这一问题，可以在聚类过程中融入一定的先验知识，如标记的数据对象和/或约束条件。

受限聚类相关内容

邻接约束聚类

传统的聚类算法通过考虑簇内相似性和簇间相异性来划分数据对象，相似性和相异性仅基于特征。而邻接约束聚类除了考虑特征信息外，还考虑了数据对象的空间信息。邻接约束通常有以下三种处理方式：
- 完全忽略邻接信息 ：在聚类过程中完全不考虑邻接信息，聚类完成后通过调查评估最终的划分结果。
- 嵌入邻接信息 ：将邻接信息嵌入到相似性/相异性矩阵（或距离）中。
- 使用邻接矩阵 ：在合并簇之前，必须参考邻接矩阵。

邻接信息通常有两种提供方式：一种是使用一个 $n \times n$ 的二进制矩阵（$n$ 为数据对象的数量）来描述邻接性，当且仅当 $x_i$ 和 $x_j$ 相邻时，矩阵中第 $i$ 行和第 $j$ 列的元素取值为 1；另一种是使用包含连续邻接值的相异性矩阵，而不是二进制值。具有邻接信息的聚类问题的算法之间的主要区别在于其聚类标准。