27、受限聚类与数据隐私中的聚类应用综述

受限聚类与数据隐私中的聚类应用综述

在许多领域,对数据对象进行合理分组的需求自然出现,聚类因此在科学家和分析师中非常受欢迎。然而,传统聚类方法仅使用未标记的数据对象作为输入,可能会从数据中提取出不相关的信息。为解决这一问题,可以在聚类过程中融入一定的先验知识,如标记的数据对象和/或约束条件。

受限聚类相关内容
邻接约束聚类

传统的聚类算法通过考虑簇内相似性和簇间相异性来划分数据对象,相似性和相异性仅基于特征。而邻接约束聚类除了考虑特征信息外,还考虑了数据对象的空间信息。邻接约束通常有以下三种处理方式:
- 完全忽略邻接信息 :在聚类过程中完全不考虑邻接信息,聚类完成后通过调查评估最终的划分结果。
- 嵌入邻接信息 :将邻接信息嵌入到相似性/相异性矩阵(或距离)中。
- 使用邻接矩阵 :在合并簇之前,必须参考邻接矩阵。

邻接信息通常有两种提供方式:一种是使用一个 $n \times n$ 的二进制矩阵($n$ 为数据对象的数量)来描述邻接性,当且仅当 $x_i$ 和 $x_j$ 相邻时,矩阵中第 $i$ 行和第 $j$ 列的元素取值为 1;另一种是使用包含连续邻接值的相异性矩阵,而不是二进制值。具有邻接信息的聚类问题的算法之间的主要区别在于其聚类标准。

聚类可行性问题

聚类可行性问题是指找到满足所有给定约束条件的数据的可行划分。文献中考虑了四种类型的约束:必须链接(must - link)、不能链接(cannot - link)、$\delta$ 和 $\beta$ 约束。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值