受限聚类与数据隐私中的聚类应用综述
在许多领域,对数据对象进行合理分组的需求自然出现,聚类因此在科学家和分析师中非常受欢迎。然而,传统聚类方法仅使用未标记的数据对象作为输入,可能会从数据中提取出不相关的信息。为解决这一问题,可以在聚类过程中融入一定的先验知识,如标记的数据对象和/或约束条件。
受限聚类相关内容
邻接约束聚类
传统的聚类算法通过考虑簇内相似性和簇间相异性来划分数据对象,相似性和相异性仅基于特征。而邻接约束聚类除了考虑特征信息外,还考虑了数据对象的空间信息。邻接约束通常有以下三种处理方式:
- 完全忽略邻接信息 :在聚类过程中完全不考虑邻接信息,聚类完成后通过调查评估最终的划分结果。
- 嵌入邻接信息 :将邻接信息嵌入到相似性/相异性矩阵(或距离)中。
- 使用邻接矩阵 :在合并簇之前,必须参考邻接矩阵。
邻接信息通常有两种提供方式:一种是使用一个 $n \times n$ 的二进制矩阵($n$ 为数据对象的数量)来描述邻接性,当且仅当 $x_i$ 和 $x_j$ 相邻时,矩阵中第 $i$ 行和第 $j$ 列的元素取值为 1;另一种是使用包含连续邻接值的相异性矩阵,而不是二进制值。具有邻接信息的聚类问题的算法之间的主要区别在于其聚类标准。
聚类可行性问题
聚类可行性问题是指找到满足所有给定约束条件的数据的可行划分。文献中考虑了四种类型的约束:必须链接(must - link)、不能链接(cannot - link)、$\delta$ 和 $\beta$ 约束。
超级会员免费看
订阅专栏 解锁全文
441

被折叠的 条评论
为什么被折叠?



