聚类算法在数据隐私与计算机视觉中的应用
数据隐私中的聚类应用
在数据隐私保护和评估的背景下,聚类起着至关重要的作用。聚类不仅应用于掩码方法的定义,还用于计算信息损失。以下将介绍一些与聚类相关的指标及其应用。
调整兰德指数(Adjusted Rand Index)
调整兰德指数是对兰德指数的修正,使得对于具有相同对象数量的分区,该指数的期望值为 0。这种调整假设广义超几何分布作为随机性模型。其计算公式为:
[ARI(\Pi, \Pi’) = \frac{r - exp}{max - exp}]
其中,(exp = \frac{np(\Pi)np(\Pi’)}{n(n - 1)/2}),(max = 0.5(np(\Pi) + np(\Pi’)))。
在这些指标中,各参数定义如下:
- (r):在分区 (\Pi) 和 (\Pi’) 中,数据点 (a) 和 (b) 处于同一聚类的对数。
- (s):在分区 (\Pi) 中数据点 (a) 和 (b) 处于同一聚类,但在分区 (\Pi’) 中不在同一聚类的对数。
- (t):在分区 (\Pi’) 中数据点 (a) 和 (b) 处于同一聚类,但在分区 (\Pi) 中不在同一聚类的对数。
- (u):在两个分区中,数据点 (a) 和 (b) 都处于不同聚类的对数。
- (np(\Pi)):分区 (\Pi) 中聚类内的对数。
兰德指数在两个分区相等时为 1,差异最大时为 0。因此,可以定义信息损失兰德指数(ILRI)为:
[ILRI(X, X’) = divergence_{RI}(f(X), f(X’)) = 1 - RI
超级会员免费看
订阅专栏 解锁全文
2156

被折叠的 条评论
为什么被折叠?



