官方的统计机构负责收集个人和组织机构的信息,并公开综合数据以服务大众。例如,1790年美国人口普查收集了居住在美国的个人的信息,并发布了基于性别、年龄、种族和劳役情况的统计表。很久以来,各统计机构在收集信息时都会承诺保密、保证数据只用于统计学用途,但公开发布的数据不可再被用于识别单一的个人或组织。为了实现这一要求,统计机构传统上会在发布时隐去一部分信息。例如,在按照行业分类统计一个城市的各行业营业额情况的表格中,如果某一格的数据仅来自一家公司,则该格数据可能会被隐去,以保证该公司的真实营业额不会因此泄露。
1950到1960年代,各统计机构开始使用电子信息处理系统,大大加快了一个机构可以制作的统计表数量。如此一来,保密信息被不当公开的机会也因而增加了。例如,如果前述的公司被隐去的营业额数据也被统计进了该区域所有公司的总营业额,则用总数减去其他各行业的营业额,仍可得出该公司的真实营业额。更复杂的加减组合亦可能揭示更多信息。随着公开发布的统计表格增加,需要检查的计算方案呈指数增长。如果数据用户可以在交互式系统中访问统计数据库,则需要检查的计算方案数可能是无上限的。
1977年,托雷·达勒纽斯(Tore Dalenius)用数学语言描述了在表格中隐去一格数据的过程。[2]
1979年,多萝西·丹宁、彼得·丹宁和迈耶施瓦茨(Mayer D. Schwartz)正式提出了“追踪者”的概念。这里的追踪者是指一个具有使用一系列查询并记录结果的能力、可以通过访问统计数据库来获知保密内容的攻击者。[3]该研究及之后的研究分析了统计数据库输出的隐私性质:追踪记录每条查询对数据库中个体的隐私的影响是NP困难的。
2003年,科比·尼西姆和伊里特·迪努尔的研究显示,对于一个统计数据库,公开任意数量的查询结果而不在此过程中泄露任何隐私信息是不可能的,且仅需进行很少次数的随机查询就可以完全揭示整个数据库的每个记录。[4]这一现象被称为信息恢复基本定律。由此可以推知,在绝大多数情况下,如不注入一定程度的噪声,就无法确保隐私。这一结论引出了差分隐私的研究。
2006年,辛西娅·德沃克、弗兰克·麦克雪丽、科比·尼西姆和亚当·D·史密斯的研究提出了确保隐私所需的噪声,并提出一个添加噪声的通用机制。[1] 该研究赢得了2017年的哥德尔奖。[5]
自此以来,后续研究进一步揭示了还有许多可以提供非常准确的统计数据、同时保证高程度隐私的方法。