异常值隐私
摘要
我们提出了一种称为tailored differential privacy的差分隐私推广形式,其中个体的隐私参数根据该个体的数据和整个数据集进行“定制”。在本文中,我们重点关注定制化差分隐私的一种自然实例,称之为 outlier privacy:个体的隐私参数由其作为“outlier”的程度决定。我们提出了异常值的新定义,并据此引入异常值隐私的概念。粗略地说, ε(·)-outlier privacy要求数据集中的每个个体都获得“ε(k)‐差分隐私保护”,其中 k是一个量化个体“异常程度”的数值。我们展示了如何发布满足 ε(·)‐异常值隐私的各种自然选择 ε(·)下的准确直方图。此外,我们还表明,即使采用最弱的 ε(·)选择所对应的 ε(·)‐异常值隐私——即对“非异常值”不提供显式的隐私保护——也已意味着相对于一个广泛且自然的分布类而言,满足某种“分布式”差分隐私概念。
1 引言
医院、社交网络系统、政府机构和其他组织收集了大量数据。分析这些数据能带来巨大的社会效益,但我们必须保护数据中个体的隐私。目前数据数据分析的隐私标准定义是差分隐私[7,5],,它要求当数据集中添加或移除某个个体的数据时,数据分析算法的输出分布仅有很小的变化。针对多种任务已开发出精确的差分私有算法,使得有用且私密的数据分析成为可能(例如,参见[6,4])。
目前,差分隐私的标准定义为所有个体提供相同的隐私保护水平。更准确地说,在 ε‐差分隐私中,每个个体都具有相同的“ε‐差分隐私保护”,这保证了算法的输出分布在加入或移除任一个体时,其变化最多为 ε。
另一种思路是为不同的个体提供不同层级的隐私保护——直观上,某些个体比其他个体需要更高的隐私保护,而算法应能适应这一点。这一总体思想最早出现在Ghosh和Roth的工作中[11],,并在机制设计背景下得到了部分研究(例如,参见[11,8,12,16,15]),其中要求个体不仅提交其数据,还要提交他们的“隐私估值”。该机制随后试图兼顾每个个体的隐私估值,同时发布有用的数据。然而,在最现实的情形下——即个体的隐私估值可能与其数据相关,因而也需要受到保护——现有文献却受到强烈不可能性结果的困扰。
定制化差分隐私:保护异常值
本文考虑一种不同的方法来应对不同个体可能具有不同隐私需求的问题。与让个体自行指定其隐私估值/参数不同,个体的隐私参数将根据该个体的数据以及整个数据集来确定。换句话说,个体的隐私参数将基于数据集为该个体进行定制——我们将这种概念称为定制化差分隐私。
在本文中,我们关注定制化差分隐私的一种自然实例:个体的隐私参数将由该个体相对于数据集而言在多大程度上是一个“异常值”来决定。粗略地说,“异常值”——直观上指那些与其他大多数个体“相距较远”或“显著不同”的个体——将获得比那些与许多其他个体“相似混合”的个体更高的隐私保护。
为异常值提供更高隐私保护的原因之一是我们可能希望限制有关一组异常值的信息泄露量。下面我们通过一个例子来说明我们的意思。
示例1 (公司员工的薪资) 。考虑用于发布直方图的标准ε‐差分隐私算法,该算法只需独立地向每个区间添加(拉普拉斯) Lap(1/ε)噪声1。假设该算法被用于发布一家大型公司员工工资的直方图,其中可能工资的范围被划分为若干区间,对应于直方图的区间。假定存在一个(较小但非微不足道的)群体,例如100名管理者,且所有这些管理者的工资都相似并属于同一区间;进一步假定该公司其他员工的工资要低得多。由于管理者群体相对较小,我们考虑将他们视为异常值,并希望防止其(近似)薪资被泄露。但是,如果 ε不够小,通过选择噪声计数至少为50的最高薪资箱,可以以“较高”的概率(大约为 1 − exp(−50ε))预测出包含管理者的箱。
泄露一小部分管理者的薪资信息或许不被视为对其隐私的严重“侵犯”。然而,如果我们进一步将每个薪资区间划分为两个子区间,分别对应HIV阳性与HIV阴性的个体,同样的论证仍然成立。如果HIV阳性管理者所占比例明显高于通常水平,这一事实将被ε‐差分隐私算法披露(假设 ε不太小)。
相比之下,如果我们能够为每位管理者提供足够强的隐私保护(即足够小的隐私参数),那么关于管理者的群体所泄露的信息将显著减少,因此管理者的薪资或其HIV状况信息将不会(显著地)被泄露。
在上述示例中,管理者被视为“异常值”——该异常值群体是“小”的,而数据集中的其他个体与他们“相距较远”;因此,我们认为泄露有关他们的敏感信息是对他们隐私的侵犯。相反,如果管理者群体是“巨大”的,则我们不再将其视为异常值,发布关于大量人群的聚合信息不应被视为对隐私的侵犯。
事实上,请注意,在上述示例中,所泄露的敏感信息并非关于某个单个个体,而是关于管理者这个群体的信息;这说明了为何传统的差分隐私(其仅旨在隐藏单个个体的信息)不足以保护此类信息。
(k, ε)-群组差分隐私(特别是由 ε/k‐差分隐私所蕴含)这一概念可用于保护管理者群体的信息(如果我们令 k= 100)。但使用如此强的隐私概念需要在上述示例中向所有箱添加与 100/ε成比例的噪声,从而使发布的数据变得无用。另一方面,如果我们根据个体是否为异常值来调整其所需的隐私级别(正如我们向前展望的那样,这将由我们的异常值隐私概念实现),我们可以确保仅为管理者提供(ε/100)‐差分隐私(从而保护关于管理者群体的任何信息),而对其他人仅提供 ε‐差分隐私。
现在让我们来形式化outlier privacy的概念。为此,我们首先需要提供一个关于个体成为异常值的数学定义。
异常值的新数学定义
如上所述,直观地说,异常值是指与其余数据“相距较远”或“显著不同”的数据点或记录。目前存在许多识别异常值的方法(参见[2]以获取综述);例如,对于一组数据点,可以将异常值定义为与任何其他数据点的距离均超过某一特定距离的数据点。然而,这类方法在处理高维数据时常常存在问题。
(这种情况相当常见),由于数据点往往稀疏分布,因此每个数据点都可能是异常值(例如见[13])。据我们所知,所有现有的识别异常值的方法仅关注数据本身,并未明确考虑将在数据上运行的算法。相比之下,类似于差分隐私的概念,我们提出的异常值定义依赖于对数据集进行操作的算法。(此外,现有的异常值识别方法通常针对特定类型的数据(例如 Rd中的数据点);而我们寻求一种适用于任何类型数据的方法。)
我们的目标是捕捉以下直观概念:在某个数据集中,如果一条数据记录“从算法的角度来看”与该数据集中的足够多的其他数据记录不“等价”,则该数据记录 t被视为异常值。更正式地,我们称一条数据记录 t相对于算法 A与另一条数据记录 t′等价,当且仅当算法 A无法区分 t和t′——即对于任意包含 t的数据集 D,若在 D中将 t替换为 t′,算法 A的输出分布保持不变。(例如,在计算直方图时,若两个个体 t和t′对应于直方图中的同一箱,则它们是等价的。)现在,我们称一条数据记录 t相对于数据集 D和算法 A是一个 k-异常值,如果 t(相对于 A)至多与数据集中的 k条记录等价。参数 k用于量化该数据记录作为异常值的程度。
定义异常值隐私
我们现在开始(非正式地)定义异常值隐私的概念。粗略地说, ε(·)-异常值隐私要求对于每个数据集 D、每个 k> 0以及数据集 D中的每个 k‐异常值 t,都保证 t获得“ε(k)‐差分隐私保护”——也就是说,如果我们从数据集中移除 t,算法的输出分布的变化至多为 ε(k),其中所使用的度量与差分隐私中的度量相同。
为了解决示例1中所示的隐私问题,让我们首先考虑针对特定“阈值”函数 ε(·)的ε(·)‐异常值隐私,该函数由两个参数 k和 ε指定;我们将由此得到的概念称为(k, ε)-简单异常值隐私。粗略地说,(k, ε)‐简单异常值隐私要求对 k‐异常值提供 ε/k‐差分隐私,但对其他个体没有隐私要求。通过对 k‐异常值要求 ε/k‐差分隐私,(k, ε)‐简单异常值隐私为每个大小至多为 k的 k‐异常值组提供了“(k, ε)‐组差分隐私保护”——也就是说,如果我们从数据集中同时移除 k个或更少的 k‐异常值,算法的输出分布最多改变 ε。(这一事实源于以下观察:我们可以逐个移除组内的 k‐异常值,每次导致输出分布最多改变 ε/k;由于组大小被限制为 k,输出分布的总变化最多为 ε。)
注意,(100, ε)‐简单异常值隐私足以保护示例1中管理者的隐私。然而,它并不能保护其他任何个体的隐私。最低限度的隐私保证应要求管理者的隐私(作为一个群体)得到保障,而其他每个人获得“个体”差分隐私保证;也就是说,我们寻求一种同时满足(100, ε)‐简单异常值隐私和 ε‐差分隐私的算法。同样,这可以视为针对略微不同的阈值函数 ε(·)的 ε(·)‐异常值隐私的一个实例。更准确地说,我们提出的(k, ε)-简单异常值差分隐私要求对 k‐异常值满足 ε/k‐差分隐私,对其他个体满足 ε‐差分隐私。
(k, ε)‐简单异常值差分隐私仅提供两个独立的隐私保护层级。我们还可以考虑一种更通用的 ε(·)‐异常值隐私实例,我们称之为阶梯异常隐私。在阶梯异常隐私中,存在 个阈值k1>…> k,以及 +1个隐私参数 ε0>…> ε,,并且我们要求对于每个 1 ≤ i ≤ ,每一个 ki‐异常值都受到 εi‐差分隐私的保护;同时,还要求所有个体默认受到ε0‐差分隐私的保护。
1.1 我们的结果
我们的核心结果包括展示了多种高效的算法,用于发布满足 ε(·)‐异常值隐私的精确直方图,其中针对ε(·)的不同自然选择——特别是我们考虑了简单异常值隐私、简单异常值差分隐私、阶梯异常隐私,以及最后对于相对通用的 ε(·)选择所对应的 ε(·)‐异常值隐私,并提供了各种(不同的)算法来实现这些概念下的直方图发布。此外,我们证明了最弱的一种隐私概念——即仅提供简单异常值隐私(请注意,该概念仅保护异常值,而对其他个体不提供任何隐私保护)——尽管可通过特别简单的算法实现,但事实上已经蕴含了一种“分布式”的差分隐私概念,因此也蕴含了一种分布式差分隐私概念下的简单异常值差分隐私概念。粗略而言,分布式差分隐私概念只要求当数据集是从某一分布类中抽取时,差分隐私性质成立。该分布类可以表示包含假设“真实分布”的一组可能分布,也可以表示对手关于数据集的一组可能信念。在我们的结果中,我们考虑了一个广泛且自然的分布类,该类由从任意总体P中的采样得到。我们的分布类包含了基于从总体P进行有偏且不完美的采样所得出的各种广泛分布/信念,甚至在对手可能知道某些个体是否被采样的情况下也适用。
用于简单异常值隐私、简单差分隐私和阶梯异常隐私的算法
让我们首先给出一个用于发布直方图的(k, ε)‐简单异常值隐私算法的示例(回顾一下,(k, ε)‐简单异常值隐私要求对所有 k‐异常值满足 ε/k‐差分隐私,而对其他所有人不提供隐私保护)。考虑一种计算直方图但抑制所有计数小于 ≤ k的区间的计数的算法。一个数据记录 t是 k‐异常值当且仅当其所在区间计数小于 ≤ k,因此通过将这些区间的计数抑制为0,我们确保从数据库中移除 t时算法的输出不会发生变化。简单异常值隐私看起来可能是一种较弱的隐私保证——毕竟,非异常值的隐私并未被明确保护。然而,我们将证明简单异常值隐私实际上蕴含了某种分布概念差分隐私的一种,这在许多情况下可能提供足够的隐私保护。因此,简单异常值隐私已经意味着简单异常值差分隐私的分布式概念。
现在让我们转向直接设计简单的异常值差分隐私算法。我们能够设计一种直方图算法,该算法可实现(k, ε)‐简单异常值差分隐私。大致来说,该算法首先向每个箱添加足够的噪声以实现 ε‐差分隐私;然后,算法遍历直方图的每个箱,如果某个箱的噪声计数小于 k,则向该箱添加足够的噪声以实现 ε/k‐差分隐私。最后,算法输出得到的含噪声直方图。
最后,通过推广上述方法,我们可以设计一种实现阶梯异常隐私的直方图算法。粗略地说,该算法首先向每个箱添加足够的噪声以实现 ε0‐差分隐私;然后,算法从顶层开始逐层(即阶梯的各个步骤)处理,如果某个箱当前的噪声计数至多为当前层级的阈值 i,则算法向该箱添加足够的噪声以实现 εi‐差分隐私。最后,算法输出最终的含噪声直方图。
满足通用 ε(·)的异常值私有算法
我们还提供了满足 ε(·)‐异常值隐私的直方图算法,适用于相对通用的 ε(·)。让我们简要说明这些异常值私有直方图算法的工作原理。用于发布直方图的标准 ε‐差分隐私算法只是独立地向每个箱的计数添加(拉普拉斯) Lap(1/ε) 噪声。通过向每个箱添加Lap(1/ε)噪声,当从数据集中移除一条数据记录 t时,含噪声直方图上的输出分布相对于差分隐私中使用的度量最多仅改变 ε。为了实现 ε(·)‐异常值隐私,输出分布最多只能改变 ε(k),其中 k是 t所在箱的计数(t是被移除的数据记录)。因此,人们可能会尝试向每个箱添加 Lap(1/ε(k)) 噪声,其中 k是该箱的计数。然而,这种方法不可行,因为所添加噪声的量依赖于计数 k的方式过于敏感。特别是,当我们从数据集中移除 t且 t所在箱的计数从 k减少到 k − 1时,噪声幅度会从 1/ε(k) 变为 1/ε(k − 1),导致输出分布的变化超过 ε(k)。
解决此问题的一种方法是对 ε(·)函数添加噪声,使得1/ε(k)和 1/ε(k−1)变得含噪,并对某个 ε′> 0而言是“ε′‐接近”的。为了允许多种解决方案,我们将考虑使用任意一种以“差分隐私”方式逼近 ε(·)的算法 A ——即对每个 k> 0,满足 A(k) ≈ A(k − 1)。然后,我们将向每个箱 b添加 ≈ Lap(1/A(kb))噪声,其中kb是箱 b的计数。只要噪声幅度 1/A(kb)足够大,该方法就有效;虽然噪声幅度 1/ε(kb)足够大,但由于 A(kb)仅是对 ε(kb)的近似, A(kb)可能会过大。因此,我们还将要求A(kb)以极高的概率至多为 ε(kb)。
与相关工作的比较
简单异常值隐私与[9]中的群体融合隐私概念存在一些相似之处。群体融合隐私使用“ε‐融合”概念,其中 ε> 0,,而在我们对异常值的定义中,我们使用关于算法的等价性概念,这对应于 ε‐融合且满足 ε= 0。此外,在(k, ε)‐简单异常值隐私中,当移除一个k‐异常值时,输出分布最多只能改变 ε/k,;而在(k, ε)‐群体融合隐私中,输出分布最多允许改变 ε。我们得出的结论是,简单异常值隐私蕴含分布式差分隐私,这一结果与[9]中的结论有些类似:即如果将一个人群融合私有算法与一个自然的预采样步骤相结合,则组合算法是零知识隐私的(这意味着差分隐私;参见[10]),如果我们把总体视为组合算法的输入数据集的话。相比之下,我们的结果是在数据集上实现了一种分布式的差分隐私概念,而不是在总体上,这是一种不同的模型和定义。
我们的结果表明,简单异常值隐私蕴含分布式差分隐私,这一点与[1],中的一个结果具有某些相似性:在[1],中证明了抑制小计数的直方图算法可实现一种分布式差分隐私(该定义略弱于我们的定义,因为他们的定义允许选择一个模拟器,而我们的定义要求模拟器必须是算法本身),但其针对的分布类与我们所考虑的分布类无法比较(两类有一定相似性,但彼此均不构成对方的子集)。此外,我们的分布类包含了基于对抗性设置下从总体中有偏且不完美的采样所得的分布/信念,其中对手甚至可能知道某些个体是否被采样;而[1]中考虑的分布类并未涵盖此类对抗性设置。同时,我们考虑的是简单离群私有算法这一更广泛的类别,它不仅包含而且广于仅抑制小计数的直方图算法。
关于异常值隐私的一些评论
我们的 ε(·)‐异常值隐私概念通常不满足组合性;也就是说,如果一个算法 A是 εA(·)‐异常值私有的,且另一个算法 B是 εB(·)‐异常值私有的,那么 A和 B的组合通常不是(εA+ εB)(·)‐异常值私有的。这是由于相对于 A和 B组合而言的 k‐异常值,可能并不是相对于 A或 B的 k‐异常值。
在我们对 ε(·)‐异常值隐私的定义中,一个 k‐异常值 t被保证具有“ε(k)‐差分隐私保护”——也就是说,如果我们移除 t,算法的输出分布最多改变 ε(k)。然而需要注意的是,这并不意味着如果我们用任意其他个体 t′,替换 t,算法的输出分布也最多只改变 ε(k)。特别是,如果我们将 t替换为一个“非异常值” t′,,则输出分布可能会发生更显著的变化。更准确地说,我们唯一能说明的是,当 t是一个k‐异常值且 t′是一个 k′‐异常值时,输出分布的变化被限制在 ε(k)+ ε(k′)以内——这是因为移除 t使输出分布最多改变 ε(k),而添加t′使输出分布最多改变 ε(k′)。
可能的未来方向和附加应用
本文的结果主要集中在直方图上。在某种程度上,这是由于我们对异常值的定义非常宽松,原因在于我们对个体之间等价性的定义非常严格(因此更容易被归类为异常值)。可以考虑将我们的 k‐异常值定义推广到(k, ε′)‐异常值,其定义相同,只是(k, ε′)‐异常值使用 ε′‐混合(如[9]中所述)来定义个体之间的等价性。如果我们使用的异常值隐私概念能够为每个个体保证至少ε0‐差分隐私,那么每个个体都将通过“传递性”与所有其他个体 2ε0‐混合,因此我们应该选择混合参数ε′小于2ε0。在各种异常值隐私概念中使用(k, ε′)‐异常值的定义,或许可以构建满足这些新异常值隐私概念的有用算法。例如,[9]中用于发布合成数据点的算法将满足我们推广后的(k, ε, ε′)‐简单异常值隐私概念,其中使用了(k, ε′)‐异常值的概念。我们将对这些推广的异常值隐私概念的探索留待未来的工作。
在稳健统计领域,主要目标之一是设计出不受异常值显著影响的统计方法和估计量。一种简单的方法是首先从数据集中移除异常值,然后对剩余的数据集应用非稳健的统计方法。为了使用这种方法,需要有一种识别异常值的手段。我们对异常值的数学定义或其变体可用于在对数据运行非稳健统计方法或算法之前移除异常值。此外,我们的异常值隐私概念可以被调整,以定义统计计算中的“异常值稳健性”概念。我们将此类想法的探索留待未来的工作。
2 异常值隐私
一个数据集是有限个多重集形式的数据记录,其中一条数据记录仅仅是某个固定集合 X中的一个元素,我们称该固定集合为数据宇宙。令 D表示所有数据集的集合。给定一个数据集 D以及两条数据记录 t和 t′,,令D−t= D{t}以及(D, t′) = D{t′}。给定 ε, δ ≥ 0以及两个随机变量(或分布) Z和 Z′,,我们将写作Z ≈ε,δ Z′,表示对于每个Y ⊆ ∈Supp(Z)且 ∪ ∈Supp(Z′),均有
Pr[Z ∈ Y] ≤ eε Pr[Z′ ∈ Y]+ δ and
Pr[Z′ ∈ Y] ≤ e ε Pr[Z ∈ Y]+ δ.
我们也将写作Z ≈ε Z ′表示Z ≈ε,0 Z ′。差分隐私([7,5])现在可以如下定义:
定义1 ((ε, δ)‐差分隐私 [7,5])
若对于任意两个仅相差一条数据记录的数据集 D 和 D′,算法 M 满足 M(D)≈ε,δ M(D′),则称该算法为(ε, δ)‐差分隐私。
直观上,差分隐私通过要求算法的输出分布在数据集中添加或删除某个个体的数据时不会发生显著变化,从而保护每个个体的隐私。实现差分隐私通常需要添加来自某种分布的噪声,通常是拉普拉斯分布。我们将使用 Lap(λ) 表示均值为0、尺度为 λ 的拉普拉斯分布,其对应的概率密度函数为 fλ(x)= 1 2λ exp(−|x| λ)。为了方便起见,我们有时会滥用符号,用 Lap(λ)表示具有拉普拉斯分布 Lap(λ) 的随机变量。
我们现在定义引言中描述的定制化差分隐私概念。粗略地说,(ε(·) δ(·))–定制化差分隐私要求数据集 D中的每个个体 t都受到(ε(t, D) δ(t, D))–差分隐私的保护,其中 ε(·)和 δ(·)是函数,在输入一个数据记录t和一个数据集 D时,输出针对 t的隐私参数 ε(t, D)和 δ(t, D)。回顾一下, X是可能的数据记录的集合,而 D是所有数据集的集合。
定义2 (定制化差分隐私)
令 ε(·) δ(·): X×D → R≥0∪{∞}。若对于每个数据集 D和每个数据记录 t ∈ D,都有 M(D)≈ε(t,D),δ(t,D)M(D{t})成立,则称算法 M是(ε(·) δ(·))‐定制化差分隐私的。
在本文中,我们关注一种特定的定制化差分隐私实例,称之为异常值隐私。异常值隐私根据个体的“异常程度”来调整该个体的隐私参数。首先让我们描述对异常值的定义。在以下定义中,令 M为任意以数据集作为输入的算法。粗略地说,我们称一对数据记录 t, t′ ∈ X关于 M是等价的(或 M-等价),记作t ≡M t′,,如果无论输入数据集如何,算法 M都无法区分这两个数据记录。
定义3(关于 M等价,或 M‐等价)
给定一对数据记录 t, t′ ∈ X,,我们称 t关于 M与 t′等价,或 M‐与 t ≡M t′,等价,记作 t ≡M t′,,如果对于任意包含 t的数据集 D′,均有M(D′)= M(D′ −t, t′)(在分布上)。
根据数据记录对关于算法 M等价的定义,我们现在定义 k-outlier的概念。粗略地说,一个 k‐outlier是指在数据集中(包括其自身)至多与 k条数据记录 M‐等价的数据记录。
定义4(k‐异常值)
给定一个数据集 D,若数据记录 t ∈ D 关于 M 在 D 中至多有 k 条数据记录与其等价,则称该数据记录 t ∈ D 为 D关于 M 的 k‐异常值。
随着参数 k的增加,成为 k‐异常值的性质会变弱(即更容易满足),而 k‐异常值的集合也会变大。根据 k‐异常值的定义,我们现在定义一种新的隐私概念,称为(ε(·) δ(·))-异常值隐私。粗略地说,(ε(·) δ(·))‐异常值隐私要求对于数据集中的每个 k> 0和每个 k‐离群点 t, t受到(ε(k) δ(k))‐差分隐私保护——即,如果从数据集中移除 t,算法的输出分布的变化至多为(ε(k) δ(k)),其中所使用的度量与(ε, δ)‐差分隐私中的度量相同。
定义5 ((ε(·) δ(·))-异常值隐私)
令 ε(·) δ(·) : N → R≥0 ∪{∞}。一个算法 M 被称为(ε(·) δ(·))-异常值私有的,如果对于每个数据集 D,每一个 k> 0,以及 D中的每一个 k-异常值 t,我们有 M(D)≈ε(k),δ(k) M(D{t})。
我们经常将 ε(·)-异常值隐私写作(ε(·) δ(·))‐异常值隐私,其中对每个 k都有δ(k) = 0。(ε(·) δ(·))‐异常值隐私通过允许根据个体偏离程度的不同来指定不同层级的隐私保护,从而推广了差分隐私。直观上,人们可能希望为异常值提供更强的隐私保护,因为他们的隐私风险可能更高。通过将 ε(·)和 δ(·)分别设为常数 ε和 δ,即可得到(ε, δ)‐差分隐私的定义。
2.1 简单的异常隐私
我们首先考虑具有特定 ε(·)函数的 ε(·)‐异常值隐私,我们将二者合称为(k, ε)-简单异常值隐私。粗略地说,(k, ε)‐简单异常值隐私要求对 k‐异常值满足 ε/k‐差分隐私,但对其他个体没有隐私要求。
定义6((k, ε))‐简单异常值隐私
设 k, ε> 0。一个算法M被称为(k, ε)‐简单离群私有,如果对于每个数据集 D以及 D中的每个k-异常值 t,都有 M(D) ≈ε/k M(D{t})。
(k, ε)‐简单异常值隐私等价于 ε(·)‐异常值隐私,其中函数 ε(·)定义为:当 k′ ≤ k,时, ε(k′) = ε/k;否则 ε(k′)= ∞。通过要求对 k‐异常值满足 ε/k‐差分隐私,(k, ε)‐简单异常值隐私为每组大小至多为 k的 k‐异常值提供了“(k, ε)‐组差分隐私保护”——也就是说,如果同时从数据集中移除 k个或更少的k‐异常值,则算法的输出分布变化至多为 ε。(这一事实源于以下观察:我们可以逐个移除组内的k‐异常值,每次导致输出分布的变化至多为 ε/k;由于组大小被 k所限制,输出分布的总变化至多为 ε。)这种针对k‐异常值组的隐私保护在需要保护一组异常值的隐私时尤为有用。在某些情况下,为了保护单个异常值的隐私,必须同时保护一整组异常值的隐私。在这种情况下,普通的差分隐私可能不足以提供充分保护,如引言中的示例1所示。为完整起见,我们现在形式化说明:当说(k, ε)‐简单异常值隐私为每组大小至多为 k的 k‐异常值提供“(k, ε)‐组差分隐私保护”时,我们的具体含义。
命题1
设 M为任意满足(k, ε)-简单离群私有的算法。那么,对于任意数据集 D以及由至多 k个在 D中的 k-异常值构成的 A ⊆ D,均有 M(D)≈ε M(D\ A)。
证明 。设 D为任意数据集,并设 A ⊆ D的大小至多为 k,且仅由 D中的 k‐异常值组成。令A={t1,…, tr},其中 r ≤ k。现在,对于 i= 0,…, r,令 D(i)= D{t1,…, ti}。我们注意到 D(0)= D且 D(r)= D\ A。由于M是(k, ε)‐简单离群私有的,且 A仅由 D中的 k‐异常值组成,并且由于在从 D中移除数据记录后, D中的 k‐异常值仍保持为 k‐异常值,因此对于每个 0 ≤ i ≤ r − 1,我们有 M(D(i)) ≈ε/k M(D(i+1))。于是,如所要求的,我们得到M(D)≈ε M(D\ A)。
现在让我们给出一些简单异常值私有算法的示例。我们的第一个示例是一种计算直方图但将小计数抑制为0的算法。直观上,同一区间内的数据记录关于 M是等价的,而属于不同区间的两个数据记录关于 M不等价。因此,当且仅当某个数据记录所属的箱的计数为 ≤ k时,该数据记录才是一个 k‐异常值,因此为了实现(k,0)‐简单异常值隐私,该算法将计数 ≤ k抑制为0。
示例2(通过抑制小计数实现简单异常值私有的直方图)
设 k> 0。设 M为一个算法,该算法在输入数据集 D时,从 D计算出一个直方图,然后对每个满足 ≤ k的箱计数, M将其“抑制”(即修改)为0。 M随后输出修改后的直方图。
定理1
上述算法 M是(k,0)-简单离群私有。
证明 。设 D为任意数据集,且设 t为 k‐离群值在 D中。我们注意到, t与恰好属于和 t相同箱中的那些记录是M‐等价的。由于t是一个 k‐离群值,其箱中最多有 k条记录。因此, M将抑制 t的箱计数至0。我们观察到,从数据集中移除 t(从而从 t的箱中移除)仍将导致 M将其箱计数抑制至0。因此, M是(k,0)‐简单离群私有的。
与其将小计数抑制为0,不如向小计数添加噪声以实现(k, ε)‐简单异常值隐私。
示例3(添加噪声到小计数的简单异常私有直方图)
设 k> 0。令 M为一个算法,该算法在输入数据集 D时,从 D计算一个直方图,然后对每个满足 ≤ k的箱计数,独立地向该箱计数添加 M Lap(k/ε)噪声。 M随后输出修改后的直方图。
定理2
上述算法 M是(k, ε)-简单离群私有。
证明 。设 D为任意数据集, t为 D中的任意一个 k‐异常值。我们注意到,t仅与和 t 属于同一箱的记录是 M‐等价的。由于 t是一个 k‐异常值,其所在箱中的记录最多有 k个。因此, M将添加Lap(k/ε) 噪声添加到 t 的箱计数中。我们观察到,从数据集中移除 t (从而从t的桶 b中移除)后, M 仍将向 t 的箱计数添加 Lap(k/ε) 噪声;利用 Lap(k/ε) 的概率密度函数并进行一些证明差分隐私的标准计算(例如参见 [7]),可以很容易地证明在移除 t 后 t 的桶b的噪声计数与移除 t 前 t 的桶b的噪声计数是 ε/k‐接近的(即≈ε/k)。因此, M 是(k, ε)‐简单离群私有。
上述简单异常值私有算法还满足一大类自然分布的分布式差分隐私概念,因为简单异常值隐私蕴含了这种分布式差分隐私概念,我们将在第3节中进行说明。
简单异常值隐私与其他隐私定义的关系
由于(k, ε)‐简单异常值隐私要求对 k‐异常值满足 ε/k‐差分隐私(而对其他个体不提供隐私保证),因此我们可知 ε/k‐差分隐私蕴含(k, ε)‐简单异常值隐私。
命题2
设 k, ε> 0。如果一个算法 M是 ε/k-差分隐私的,那么它就是(k, ε)-简单离群私有的。
证明 。这直接由 ε/k‐差分隐私和(k, ε)‐简单异常值隐私的定义得出。
尽管通过实现ε/k‐差分隐私可以获得(k, ε)‐简单异常值隐私,但实现 ε/k‐差分隐私通常需要添加更多的“噪声”。如上面的示例所示,使用(k, ε)‐简单异常值隐私可以获得更高的准确性/实用性,因为只需要对 k‐异常值提供 ε/k‐差分隐私。
在[9],中,使用了一对数据记录“ε‐相互融合”的概念(在其群体融合隐私的定义中),要求算法对这两个记录的区分程度不超过 ε。更准确地说,一个数据记录 tε-与 t′关于 M相融合,如果对于每个包含 t的数据集 D′,都有 M(D′) ≈εM(D′ −t, t′)成立。本文中,在我们关于 M的等价性定义以及 k‐异常值的定义中,我们要求“融合”是完全的(即 ε= 0),因为对于(ε/2)‐差分隐私算法而言,每条记录都与所有其他记录 ε‐融合,因此不会存在异常值。此外,通过设定ε= 0, ,“融合”关系就成为所有可能数据记录集合上的等价关系。对于发布直方图的算法,其等价类恰好就是直方图的区间。换句话说,一对数据记录当且仅当属于同一个区间时才彼此融合。简单异常值隐私与[9],中的群体融合隐私概念之间也存在一些相似之处,下面我们予以回顾。
定义7(群体融合隐私 [9])
算法 M是(k, ε)‐群体融合隐私的,如果对于每个数据集 D和每条数据记录 t ∈ D,至少满足以下条件之一:
–在 D中至少有 k条数据记录与 t进行 ε混合。
– M(D) ≈ε M(D{t})
群体融合隐私中的第一个条件大致表示 t不是一个(k−1)‐异常值,只不过在(k−1)‐异常值的定义中,使用了较弱的ε‐融合概念而非0‐融合。在第二个条件中,当从 D中移除 t时, M的输出分布变化最多为 ε,,但在(k, ε)‐简单异常值隐私中, M的输出分布仅允许最多变化 ε/k(原因如上所述)。我们现在正式证明简单异常值隐私蕴含群体融合隐私。
命题3
如果一个算法 M是(k, ε)-简单离群私有,则它也是(k+1, ε/k)-群体融合私有。
证明 。假设一个算法 M是(k, ε)‐简单异常值隐私的。我们将证明 M也是(k+ 1, ε/k)‐群体
异常值隐私
2.1 简单的异常隐私(续)
融合隐私的
令 D为任意数据集,令t ∈ D,并令 A为所有数据记录 t′在 D中的多重集,使得 t′ ≡M t。如果 A的大小至少为 k+1,则(k+1, ε)‐群体融合隐私的第一条性质成立。否则, t是 D中的一个 k‐异常值,因此根据(k, ε)‐简单异常值隐私的定义,我们有 M(D) ≈ε/k M(D{t}),即(k+1, ε/k)‐群体融合隐私的第二条性质。
2.2 同时实现简单异常值隐私和差分隐私
尽管(k, ε)‐简单异常值隐私保护了 k‐异常值的隐私,但对于其他个体而言,并没有提供任何隐私保证。因此,我们现在考虑一种更强的异常值隐私概念,该概念为 k‐异常值提供 ε/k‐差分隐私,同时为其他所有人提供ε‐差分隐私。换句话说,这种更强的异常值隐私概念同时提供了(k, ε)‐简单异常值隐私和 ε‐差分隐私。我们将这种异常值隐私概念称为简单异常值差分隐私。我们首先将(k, ε)‐简单异常值隐私推广到(k, ε, δ)‐简单异常值隐私,以便定义(k, ε, δ)‐简单异常值差分隐私。
定义8 ((k, ε, δ))‐简单异常值隐私)
设 k, ε> 0。一个算法M被称为是(k, ε, δ)‐简单离群私有,如果对于每个数据集 D以及 D中的每个k-异常值 t,都有 M(D)≈ε/k,δ M(D{t})。
我们现在定义(k, ε, δ)‐简单异常值差分隐私。
定义9 (k, ε, δ)‐简单异常值差分隐私)
设 k, ε> 0。若一个算法 M是(k, ε, δ)-简单离群私有且(ε, δ)-差分隐私,则称该算法为(k, ε, δ)-简单异常值差分隐私。
我们将使用(k, ε)-简单异常值差分隐私表示 δ= 0条件下的(k, ε, δ)‐简单异常值差分隐私。在(k, ε, δ)‐简单异常值差分隐私的定义中,参数 ε和 δ同时用于简单异常值隐私要求和差分隐私要求;然而,也可以很容易地考虑一种更一般的定义,即对这两个要求分别使用不同的参数。(k, ε)‐简单异常值差分隐私等价于函数 ε(·)定义下的 ε(·)‐异常值隐私,其中 ε(k′) = ε/k当k′ ≤ k,成立,否则 ε(k′) = ε。现在我们描述一种实现简单异常值差分隐私的发布直方图算法。
示例4(通过抑制小计数实现简单离群值差分隐私的直方图)
设 k, α, ε> 0。令 M为一个算法,该算法在输入数据集 D时,从 D计算出一个直方图,然后独立地向每个箱计数添加 Lap(1/ε)噪声。接着,对于每一个新的(含噪声)桶计数,若其 ≤ k+ α/ε,M,则将该箱计数“抑制”为0。 M随后输出修改后的直方图。
定理3
上述算法 M是(k, ε, e−α/2)-简单异常值差分私密的。
证明 . 我们首先证明 M是 ε‐差分隐私的。我们注意到 M首先使用标准的 ε‐差分隐私算法来生成一个含噪声直方图。之后, M不再查看输入数据集,因此 M的输出仅仅是该ε‐差分隐私算法输出的后处理结果。因此, M本身也是 ε‐差分隐私的。
我们现在证明 M是(k,0, e−α/2)‐简单离群私有的。设 D为任意数据集,并设 t为 D中的任意 k‐离群值。我们需要证明 M(D)≈0,e−α/2M(D{t})。只需证明无论数据集是 D还是D{t},我们都有至少1−e−α/2的概率将 t的箱计数抑制为0。该事件恰好发生在 t的箱的新(含噪声)计数为≤ k+ α/ε时。由于 t是一个 k‐离群值,在添加任何噪声之前, t的箱中最多有 k条记录,因此该事件的概率至少为 Lap(1/ε) ≤ α/ε的概率。可以很容易地验证,后一事件发生的概率至少为 1 − e−α/2,符合要求。
在上述示例中,算法 M可以向含噪箱计数添加 Lap(k/ε)噪声,而不是将含噪箱计数抑制为0。现在,让我们更正式地描述此类算法。
示例5(向小计数添加噪声的简单异常值差分隐私直方图)
设 k, α, ε> 0。令 M为一个算法,该算法在输入数据集 D时,从 D计算出一个直方图,然后独立地向每个箱计数添加 Lap(1/ε)噪声。接着,对于每一个新的(含噪声)桶计数,若其为 ≤ k+ α/ε,M,则向该含噪箱计数添加 Lap(k/ε)噪声。 M随后输出修改后的直方图。
定理4
上述算法 M是(k, ε, e −α)-简单异常值差分隐私的。
证明 。我们首先证明 M是 ε‐差分隐私的。我们注意到 M首先使用标准的 ε‐差分隐私算法来生成一个含噪声直方图。之后, M不再查看输入数据集,因此 M的输出仅仅是某个ε‐差分隐私算法输出的后处理结果。因此, M本身也是 ε‐差分隐私的。
我们现在证明 M是(k, ε, e−α)‐简单离群私有的。设 D为任意数据集,并设 t为 D中的任意 k‐离群值。我们需要证明 M(D)≈ε/k,e−αM(D{t})。我们首先证明,无论数据集是 D还是D{t},第一个关于 t所在箱的噪声计数为 ≤ k+ α/ε的概率至少为 1 − e−α/2(该条件决定了是否将 Lap(k/ε)噪声进一步添加到含噪箱计数中)。由于 t是一个 k‐离群值,在向 t所在箱添加任何噪声之前,其中最多有 k条记录,因此该事件的概率至少等于 Lap(1/ε) ≤ α/ε的概率。可以很容易地验证,后一事件发生的概率至少为 1 − e−α/2,符合要求。
现在,令 M′与 M相同,只是对于 t的箱,不再检查 t的箱的第一个噪声计数是否为≤ k+ α/ε, M′,而是直接假设该条件成立。那么,我们有 M(D)≈0,e−α/2 M ′(D)和M(D{t})≈0,e−α/2 M ′(D{t})。因此,要证明 M(D)≈ε/k,e−α M(D{t}),只需证明M′(D)≈ε/k M ′(D{t})。由于 M′向 t的箱计数中添加了 Lap(k/ε)噪声,通过标准计算容易证明所需的 M′(D)≈ε/kM′(D{t})。
重新审视“公司员工的薪资”示例
上述简单的异常值差分隐私直方图算法可用于保护引言中所述示例中管理者及其他员工的隐私。如前所述,也可以通过使用组差分隐私算法发布直方图来保护管理者的隐私。为了进行比较,我们现在描述用于发布直方图的标准组差分隐私算法。
示例6(标准组差分隐私直方图)
设 k, ε> 0。令 M为一个算法,该算法在输入数据集 D时,从D计算出一个直方图,然后独立地向每个箱计数添加 Lap(k/ε)噪声, M随后输出修改后的直方图。
已知算法 M 是(k, ε)‐群组差分隐私的(例如,参见 [7])。
如我们所见,标准组差分隐私直方图算法会向所有区间(包括包含大量个体的箱)添加 Lap(k/ε)噪声。我们的简单的异常值差分隐私算法仅对包含异常值的区间进行抑制或添加≈ Lap(k/ε)噪声(取决于所使用的变体),而对于其他区间,我们的算法仅添加 Lap(1/ε)噪声,这明显少于 Lap(k/ε)噪声。因此,在“公司员工的薪资”示例中,我们的算法具有更高的准确性。
2.3 阶梯异常隐私
在简单异常值差分隐私中,仅有两个独立的隐私保护层级:对 k‐异常值提供 ε/k‐差分隐私,对其他所有人提供 ε‐差分隐私。我们可以将这种异常值隐私的概念推广到具有多于两个层级的隐私保护。我们称这种广义的概念为阶梯异常隐私。在阶梯异常隐私中,存在 个阈值 k1>…> k,以及+ 1个隐私参数ε0>…> ε,,并且要求对于每个 1 ≤ i ≤ ,每个ki‐异常值均受到(εi, δ)‐差分隐私的保护;同时,默认要求所有个体均受到(ε0, δ)‐差分隐私的保护。
定义10(阶梯异常隐私)
设 > 0,设 k1>…> k> 0,设∞ ≥ ε0> ε1>…> ε ≥ 0,且设 δ ≥ 0。一个算法 M被称为((k1,…, k),(ε0,…, ε) δ)‐阶梯异常私有,如果 M是(ε0, δ)-差分隐私的,并且对于每个数据集 D、每个 1 ≤ i ≤ 以及 D中的每个ki-异常值 t,都有 M(D)≈εi,δ M(D{t})。
我们将写成((k1,..., k),(ε0,…, ε))‐阶梯异常隐私,表示在 δ= 0的情况下,((k1,..., k),(ε0,…, ε) δ)‐阶梯异常隐私。在上述定义中,使用了一个单一的 δ参数,但可以很容易地推广该定义,以允许 + 1个不同的 δ层级:δ0> δ1>…> δ。阶梯异常隐私推广了简单异常值隐私和简单异常值差分隐私:(k, ε)‐简单异常值隐私等价于(k,(∞, ε/k))‐阶梯异常隐私,而(k, ε, δ)‐简单异常值差分隐私等价于(k,(ε, ε/k) δ)‐阶梯异常隐私。((k1,..., k),(ε0,…, ε) δ)‐阶梯异常隐私等价于具有“阶梯”形式 ε(·): N →R≥0∪{∞}函数的(ε( ε) δ)‐异常值隐私,其中 ε(k)= ε0当 k> k1时, ε(k)= ε1当 k2< k ≤ k1时, ε(k)= ε2当 k3< k ≤ k2时,依此类推。更正式地, ε(·)由 ε(k)= εj,定义,其中 j是最小的整数使得k ≤ kj成立,若不存在这样的整数,则 j= 0。
为了方便和简洁起见,我们将为任意实数 x> 0定义 x/0= ∞和 x/∞= 0。此外,“向某个值添加 Lap(∞)噪声”意味着将该值抑制(即更改)为0;而 “向某个值添加 Lap(0)噪声”则意味着对该值不添加任何噪声,即保持该值不变。现在让我们描述一种实现阶梯异常隐私的直方图算法。大致来说,该算法首先向每个箱添加噪声以实现 ε0‐差分隐私;然后,算法从顶层开始依次遍历阶梯的每一层,如果当前某个箱的噪声计数至多等于该层的阈值,则算法会向该箱添加足够的噪声以实现 εi‐差分隐私。最后,算法输出得到的含噪声直方图。
示例7(用于发布直方图的阶梯状异常值私有算法)
设> 0,设k1>…> k> 0,设 ∞ ≥ ε0> ε1>…> ε ≥ 0。设 α> 0,并设 M为一种算法,该算法在输入数据集 D时,从 D计算一个直方图,然后独立地向每个箱计数添加 Lap(1/ε0)噪声。接着,对于 i= 1,…, , M执行以下操作:对每一个当前含噪声的区间计数,若其为≤ ki +(α/ε0 + ···+ α/ε i−1),则 M向该当前含噪声的区间计数添加 Lap(1/εi)噪声。 M随后输出修改后的直方图。
定理5
上述算法 M是((k1,…, k),(ε0,…, ε) e−α)-阶梯异常私有。
证明 . 我们首先证明 M是 ε0‐差分隐私的。我们注意到 M首先使用标准的 ε0‐差分隐私算法计算一个含噪声直方图以发布含噪声直方图。此后, M不再查看输入数据集,因此 M的输出仅仅是ε0‐差分隐私算法输出的后处理结果。因此, M本身是 ε0‐差分隐私的。
我们现在证明,对于每个数据集 D、每个 1 ≤ i ≤ 以及 D中的每个ki‐outliert,均有 M(D)≈εi,e −α M(D{t})。设 D为任意数据集,令 1 ≤ i ≤ ,并设 t为 D中的任意ki‐outlier。我们需要证明 M(D)≈εi,e −α M(D{t})。我们首先证明,无论数据集是 D还是 D{t},至少以 1 − e−α/2的概率,在算法 M的每一次迭代 i′ ≤ i中, t所在箱的当前噪声计数为≤ ki′+(α/ε0+···+α/εi′−1)这一条件均成立。我们注意到,若对于 i′= 0,…, i−1,,由 M所添加的噪声 Lap(1/εi′)为 ≤ α/εi′,则该条件成立(注意,由于 t是一个 ki‐outlier且 ki ≤ ki′, t所在箱的原始真实计数为≤ ki′,)。可以很容易验证,这些事件中的每一个发生的概率至少为 1 − e−α/2。因此,根据并界,至少以1 − e−α/2的概率,在算法 M的每一次迭代i′ ≤ i中, t所在箱的噪声计数为 ≤ ki′+(α/ε0+ ···+ α/εi′−1)这一条件成立。
设M′与 M相同,只是在每次迭代 i′ ≤ i,中,不再检查 t所在箱的当前含噪声的区间计数是否为 ≤ki′+(α/ε0+···+α/εi′−1),而是 M ′直接假定该条件成立。那么我们有 M(D)≈0,e−α/2 M ′(D)和 M(D{t})≈0,e−α/2 M ′(D{t})。因此,要证明 M(D)≈0,e−α M(D{t}),只需证明 M′(D)≈εiM ′(D{t})。由于 M′在第 i次迭代期间向 t的箱中添加了 Lap(1/εi)噪声,并且之后的所有计算均可视为后处理,因此通过标准计算容易证明所需的 M′(D)≈εi M ′(D{t})。
在上述示例中,可以修改算法 M 以输出每个箱 b的比特,指示在哪些迭代 i向箱 b添加了噪声。隐私保证(定理5)及其证明仍然完全相同,但通过输出此类信息,数据分析师将确切知道添加到每个箱的真实计数中的噪声分布。
分析上述算法的效用/准确性 M
现在让我们研究上述算法 M的效用/准确性。我们注意到M是分别且独立地处理每个箱的,因此我们可以简单地分析单个箱b的准确性。假设某个箱 b的计数恰好为 k。令 j为满足k ≤ k j的最小整数,若不存在这样的整数,则令 j= 0。由定理5的证明可知,不难看出,至少以1 − e−α的概率,在每次迭代 i= 1,…, j中,算法 M会向箱 b添加Lap(1/εi)噪声。这意味着,至少以 1−e −α的概率, M将向箱 b添加至少∑ j i=0 Lap(1/εi)的噪声。
现在让我们尝试推导添加到箱 b 的噪声的概率上界。我们来分析在特定迭代 i′ 中是否会对箱 b 添加噪声。注意到在迭代 i= 1,…, i′−1, M 要么向箱 b 添加 Lap(1/εi) 噪声,要么不添加噪声,并且以至少 1−e−α 的概率,该噪声不会使当前的噪声计数减少超过 α/εi。因此,根据并界,以至少 1−e−α 的概率,在迭代 i′ 时的噪声计数将至少为 k−(α/ε0+···+α/εi′−1),如果该数值为 > ki′+(α/ε0+···+α/εi′−1),则 M 在迭代 i′ 时不向箱 b 添加任何噪声。令 I 表示使得该不等式不成立的 i′ ∈{1,…, } 的集合,即 k −(α/ε0+ ···+ α/εi′−1) ≤ ki′+(α/ε0+ ···+ α/εi′−1),这等价于 k ≤ ki′+ 2(α/ε0+ ···+ α/εi′−1)。那么,以至少 1 − e−α 的概率,添加到箱 b 的噪声分布是 {i ∈ I 的子集: Lap(1/εi)} ∪{Lap(1/ε0)}(请注意,默认情况下在开始时会向箱 b 添加 Lap(1/ε0) 噪声)。
假设 j< 。如果ki是“良好间隔”的,且 εi不“太小”,则我们可以证明,以至少 1 − e−α的概率, M将向箱 b中添加至多∑j+1 i=0 Lap(1/εi)的噪声。更正式地说,假设对于每个 1 ≤ i ≤ − 1,我们有ki> ki+1+ 2(α/ε0+ ···+ α/εi)。那么根据上述 j的定义,我们有 k> ki,适用于 i= j+1,…, ,因此k> ki+1+2(α/ε0+ ···+ α/εi)适用于i= j+ 1,…, − 1,这等价于k> ki+ 2(α/ε0+ ···+ α/εi−1)适用于i= j+ 2,…, 。这意味着对于每一个 j+ 2 ≤ i ≤ ,我们都有 i∈/ I,因此以至少 1−e−α的概率, M将向箱 b中添加至多∑j+1 i=0 Lap(1/εi)的噪声,符合要求。我们注意到, ∑j+1 i=0 Lap(1/εi)噪声可能显著低于标准 ε‐差分隐私算法在发布直方图时所添加的 Lap(1/ε)噪声。
2.4 异常值私有直方图算法在广义ε(·) δ(·)下的示例
在本节中,我们为一般的 ε(·)和 δ(·)函数提供一些异常值私有直方图算法的示例。首先让我们直观地解释异常值私有直方图算法的工作原理。用于发布直方图的标准 ε‐差分隐私算法只需独立地向每个箱计数添加 Lap(1/ε)噪声。通过向每个箱添加 Lap(1/ε)噪声,当从数据集中移除一条数据记录 t时,含噪声直方图上的输出分布相对于差分隐私所使用的度量最多仅变化 ε 。为了实现 ε(·)‐异常值隐私,含噪声直方图上的输出分布最多只能变化 ε(k),其中 k是 t所在箱的计数(t是被移除的数据记录)。因此,人们可能会尝试向每个箱添加 Lap(1/ε(k))噪声,其中k是该箱的计数。然而,这种方法不可行,因为所添加噪声的量依赖于计数 k的方式过于敏感。特别是当我们从数据集中移除 t且 t所在箱的计数从 k减少到 k−1时,噪声幅度会从 1/ε(k)变为 1/ε(k−1),这将导致含噪声直方图上的输出分布变化超过 ε(k)。
解决此问题的一种方法是对 ε(·)函数添加噪声,使得1/ε(k)和 1/ε(k−1)变为带有噪声的值,并对某个 ε′> 0而言是“ε′‐接近”的。为了允许多样化的解决方案,我们将考虑使用任意一种以“差分隐私”方式逼近 ε(·)的算法 A ——即对于每个 k> 0,满足 A(k) ≈ A(k − 1)。然后,我们将向每个箱 b添加 ≈ Lap(1/A(kb))噪声,其中kb是箱 b的计数。只要噪声幅度 1/A(kb)足够大,该方法就有效;虽然噪声幅度 1/ε(kb)已足够大,但由于 A(kb)仅是对 ε(kb)的近似, A(kb)可能会过大。因此,我们还将要求A(k)以极高的概率至多为 ε(k)。下面,我们不直接对每个箱添加拉普拉斯噪声,而是考虑一个通用的算法 B,它输出一个噪声计数,并且对于每个 k> 0和 ε′ ≥ 0,满足 B(k, ε′) ≈ε′ B(k − 1, ε′),这正是我们需要的性质;添加拉普拉斯噪声满足这一性质。为了更具一般性,我们还引入了一个 δ(·)参数,并考虑(ε(·) δ(·)))‐异常值隐私。现在让我们描述对 A所需满足的性质。
定义11(差分隐私下界,针对(ε(·) δ(·))
设ε(·) δ(·): N → R≥0 ∪{∞}为函数。若一个算法 A接收一个整数 N → R≥0 ∪{∞}作为输入,并满足以下性质,则称该算法为(εA, δA, δA′)‐差分隐私下界,针对(ε(·) δ(·): A
– A(k)≈εA,δA A(k −1)对于每个整数 k> 0。
–对于每个 k ∈ N,以至少 1−δA′, A(k)的概率输出一个 (εtotal, δtotal),满足 εA ≤ εtotal ≤ ε(k)和 δA+ δA′ ≤ δtotal ≤ δ(k)。
我们现在描述针对通用 ε(·)和δ(·)函数的异常私有直方图算法。
示例8(通用 ε(·) δ(·)的异常私有直方图算法)
设ε(·) δ(·):N → R≥0 ∪{∞}为单调函数。令 A为(ε(·) δ(·))的任意(εA, δA, δA′)‐差分隐私下界,并假设 ε(·)和 δ(·)分别有下界 εA和 δA+ δA′,即对每个 k ∈ N, ε(k) ≥ εA且 δ(k) ≥ δA+ δA′。令 B为任意满足对每个整数 k> 0和每个 ε′, δ′ ≥ 0均有B(k, ε′, δ′) ≈ε′,δ′ B(k − 1, ε′, δ′)的算法。设 M为一种算法,该算法在输入数据集 D时,从 D计算一个直方图,然后对每个箱 b独立执行以下操作:设kb为箱 b的计数。 M运行 A(kb)得到其输出(εtotal, δtotal),然后运行B(kb, εtotal−εA, δtotal−δA−δA′),并使用其输出替换箱 b中计数 kb。遍历所有箱后, M输出修改后的直方图(以及每个箱 b对应 的 A(εtotal, δtotal)的输出(εtotal, δtotal),如果需要的话)。
定理6(通用 ε(·),δ(·)的异常私有直方图算法)
上述算法 M是(ε(·) δ(·))-异常私有的。
证明 。设 D为任意数据集,令 k> 0,并设 t为 D中的任意一个 k‐离群值。我们需要证明 M(D)≈ε(k),δ(k) M(D{t})。我们注意到, t相对于 M而言,恰好等价于与 t属于同一箱的那些记录,因此 k是 t所在箱的计数的上界。由于 ε(·)和 δ(·)是单调的,我们可以不失一般性地假设 k等于 t所在箱的计数。
现在,考虑从数据集 D 中移除 t; t 所在区间 的计数减少 1,而其他区间的计数保持不变。由于 M 独立地对每个区间进行处理,因此只需证明
B(k, εtotal,k − εA, δtotal,k − δA − δ′A) ≈ε(k),δ(k) B(k − 1, εtotal,k−1 − εA, δtotal,k−1 − δA − δ′A),
(1)
其中 (εtotal,k, δtotal,k) ∼ A(k) 和 (εtotal,k−1, δtotal,k−1) ∼ A(k −1)。根据 A 的定义,我们有 A(k)≈εA,δA A(k −1),因此 (εtotal,k, δtotal,k)≈εA,δA(εtotal,k−1,δtotal,k−1),所以
B(k, εtotal,k −εA, δtotal,k − δA − δA′) ≈εA,δA B(k, εtotal,k−1 − εA, δtotal,k−1 −δA − δA′).
(2)
根据 B的定义,对于每个 ε′, δ′ ≥0,我们有 B(k, ε′, δ′) ≈ε′,δ′ B(k − 1, ε′, δ′);根据A的定义,以至少 1 − δA′, A(k − 1)的概率,输出一个满足 εA ≤ εtotal,k−1 ≤ ε(k − 1)且 δA+ δA′ ≤δtotal,k−1 ≤ δ(k −1)的(εtotal,k−1, δtotal,k−1),因此
B(k, εtotal,k−1 − εA, δtotal,k−1 − δA − δA′)
≈ε(k−1)−εA,δ(k−1)−δA B(k− 1, εtotal,k−1 − εA, δtotal,k−1 − δA − δA′). (3)
现在,结合(2)和(3),并注意到 ε(k−1) ≤ ε(k) 且 δ(k−1) ≤ δ(k)(因为 ε(·) 和 δ(·)是单调的),我们得到所需的(1)。
上述示例中算法 B的一个典型选择是添加拉普拉斯噪声的算法:该算法 B在输入 k ≥ 0和 ε′, δ′ ≥ 0,时,向 k添加Lap(1/ε′)噪声,然后输出修改后的 (带噪声的) k。现在让我们给出一些算法 A的示例:
– 向 k添加噪声,然后在带噪声的 k上计算 ε(·):令 εA, α> 0,,并假设 ε(·)和 δ(·)分别有下界εA和 e−α/2。令 A为一个算法,其输入为 k ≥ 0时,从Lap(1/εA)中抽取样本 λ ∼,令 k′=为max{k+λ−α/εA, 0},,然后输出(ε(k′) e−α/2)。那么, A是(ε(·) δ(·))的一个(εA, 0, e−α/2)‐差分隐私下界。
– 向 ε(k)添加根据 ε(·)的全局敏感度校准的噪声:令 εA, α> 0,,并假设 ε(·)和 δ(·)分别有下界 εA和 e−α/2。令Δ(ε)= supk′ ∈Z>0 |ε(k′)−ε(k′−1)|,并假设Δ(ε) <∞。令 A为一个算法,其输入为 k ≥ 0时,从Δ(ε)/εA中抽取样本 λ ∼ Lap, 然后输出(max{ε(k)+ λ − αΔ(ε)/εA, εA}, e−α/2)。那么, A是(ε(·) δ(·))的 一个(εA, 0, e−α/2)‐差分隐私下界。
– 向 ε(k)添加根据 ε(·)的平滑敏感度校准的噪声:设 εA, α> 0,,并假设 ε(·)和 δ (·)分别有下界εA和 δA+e−α/2。令 δA ∈(0,1),令0 ≤ β ≤ εA2 ln(2/δA)。令S∗ ε,β(k)=supk ′ ∈ Z >0(|ε(k) −ε(k′)| · e−β|k−k ′|),并假设对于每个k,S∗ ε,β(k) < ∞成立。令 A为一个算法,其在输入 k ≥ 0时,采样 λ ∼ Lap(2S ∗(k)/εA),然后输出(max{ε(k)+λ−2αS ∗ ε,β(k)/εA, εA}, δA+e −α/2)。则 A是(ε(·) δ(·))的一个(εA, δA, e −α/2)‐差分隐私下界(见[14])。
–向“噪声幅度函数” 1/ε(·) 添加噪声,该噪声根据 1/ε(·) 的全局敏感度进行校准:令 εA, α> 0,,并假设 ε(·) 和 δ(·) 分别有下界 εA 和 e−α/2。令 Δ(1/ε)= supk′∈Z>0 |1/ε(k′)−1/ε(k′ − 1)|,且假设 Δ(1/ε) < ∞。令 A 为一个算法,对于输入 k ≥ 0,从 λ ∼ Lap(Δ(1/ε)/εA) 中采样样本,并输出(max{ 1 {1/ε k max()+λ−αΔ(1/ε)/εA,0}, εA}, e−α/2)。然后, A是(ε(·) δ(·))的一个(εA, 0,e−α/2)‐差分隐私下界。
– 向“噪声幅度函数” 1/ε(·)添加噪声,该函数根据 1/ε(·)的平滑敏感度进行校准:设 εA, α> 0, ,并假设 ε(·)和 δ(·)分别有下界 εA和 δA+ e−α/2。令δA ∈(0,1),且0 ≤ β ≤ εA2 ln(2/δA)。令S∗ 1/ε,β(k)= supk′∈Z>0(|1/ε(k)− 1/ε(k′)| ·e−β|k−k′|),并假设对每个 k均有S∗ 1/ε,β(k) < ∞。令 A为一种算法,其在输入 k ≥ 0时,从 λ ∼ Lap(2S∗(k)/εA)中采样样本,并输出( max{ 1 {1/ε k max()+λ−2αS∗(k)/εA,0}, εA}, δA+ e−α/2)。那么, A是(εA, δA, e−α/2)‐差分隐私下界,适用于(ε(·) δ(·))(见[14])。
在上述示例中,算法 M还可以为每个箱 b发布 A(kb)的输出(εtotal, δtotal)。通过发布这些额外信息,数据分析师将确切知道添加到每个箱的真实计数中的噪声分布。
分析上述算法的效用/准确性 M
现在让我们研究上述算法 M的效用/准确性。我们注意到M是分别且独立地处理每个箱的,因此我们可以简单地分析单个箱 b的准确性。假设某个箱 b的计数恰好为 k。为简便起见,我们假设 B即为上述描述的添加拉普拉斯噪声的算法。现在让我们考虑前述的各种用于 A的算法。所有这些算法都涉及向某个用于确定 εtotal输出值 A的数值添加拉普拉斯噪声。通过使用拉普拉斯分布的累积分布函数,可以获得所添加噪声量的概率上界,从而得到 εtotal的概率下界。由于算法 B向箱 b添加了 Lap( 1 ε total −εA ),我们可以获得添加到箱 b中噪声量的概率上界。如果我们将此分析应用于上述每种用于 A的算法,则可得到以下结果:
– 向 k添加噪声,然后在带噪声的 k上计算 ε(·):至少以 1 − e−α的概率,添加到箱 b的噪声量最多为 Lap(1/ε′),其中ε′= ε(max{k − 2α/εA, 0}) − εA。
– 向 ε(k)添加根据 ε(·)的全局敏感度校准的噪声:至少以 1 − e−α的概率,添加到箱 b的噪声量最多为 Lap(1/ε′),其中ε′= max{ε(k) − 2αΔ(ε)/εA − εA, 0}。
– 向 ε(k)添加根据 ε(·)的平滑敏感度校准的噪声:至少以1 − e −α的概率,添加到箱 b的噪声量最多为 Lap(1/ε′),其中ε′= max{ε(k) − 4αS ∗ ε,β(k)/εA − εA, 0}。
–向“噪声幅度函数”添加噪声 1/ε(·),该噪声根据 1/ε(·) 的全局敏感度进行校准:以至少 1 − e−α 的概率,在箱 b中添加的噪声量至多为 Lap(1/ε′),其中 ε′=max{ 1 {1/ε k max()−2αΔ(1/ε)/εA,0} − εA, 0}。
–向“噪声幅度函数” 1/ε(·)添加噪声,该噪声根据 1/ε(·)的平滑敏感度进行校准:以至少1 − e−α的概率,在箱 b中添加的噪声量最多为 Lap(1/ε′),其中 ε′=max{ 1 {1
1029

被折叠的 条评论
为什么被折叠?



