私有合成数据生成的困难性分析
在数据处理和隐私保护领域,生成准确且隐私保护的合成数据是一个具有挑战性的问题。本文将深入探讨难以清理的分布以及约束满足问题(CSP)的近似困难性,以及它们与生成私有合成数据的关系。
难以清理的分布定义
首先,我们来了解难以清理的分布的定义。设 $C$ 为一个概念类,$\alpha \in [0, 1]$ 为一个参数,$D = D_d$ 为一个数据库分布集合。
- 定义 5(难以清理的分布) :如果存在一个高效的对手 $T$,使得对于任何所谓的多项式时间清理器 $A$,满足以下两个条件,则分布 $D$ 是 $(\alpha, C)$ - 难以清理的:
1. 每当 $A(D)$ 是 $\alpha$ - 准确的,那么 $T(A(D))$ 输出 $D$ 的一行:
[
\Pr_{(D,D’,i)\leftarrow_R \tilde{D}, A’s 和 T’s coins}[(A(D) 是 \alpha - 准确的对于 C) \land (T(A(D)) \cap D = \varnothing)] \leq negl(d)
]
2. 对于每个高效的清理器 $A$,$T$ 不能从数据库 $D’$ 中提取 $x_i$:
[
\Pr_{(D,D’,i)\leftarrow_R \tilde{D}, A’s 和 T’s coins}[T(A(D’)) = x_i] \leq negl(d)
]
其中 $x_i$ 是 $D$ 的第 $i$ 行。
在某些情况下,满足定义 5 的分布在实现即使是弱差分