论文研读系列——“Quantifying and Mitigating Privacy Risks for Tabular Generative”

Quantifying and Mitigating Privacy Risks for Tabular Generative

arxiv [Submitted on 12 Mar 2024]

链接:arXiv:2403.07842

代码:https://anonymous.4open.science/r/DP-TLDM-317C

摘要

本文讨论了如何使用生成模型创建的合成数据在不泄露私人信息的情况下共享数据,重点是按行和列结构的表格数据。它强调了先前研究的局限性,这些研究仅考虑了少数类型的隐私攻击和生成模型,尤其是那些基于生成对抗网络(GAN)的研究。作者探讨了哪些表格生成模型在数据实用性和隐私性之间提供了最佳的平衡,尤其是针对成员推断攻击,以及差分隐私技术如何增强这种平衡。他们推出了一种名为DP-TLDM的新模型,该模型结合了自动编码器和潜在扩散模型,并使用差分隐私技术来改善数据质量和隐私。该研究包括对五种最先进的表格合成器针对八种隐私攻击的广泛评估,表明DP-TLDM在保持高数据质量的同时提供了强大的隐私保障。

1 INTRODUCTION(引言)

高质量的合成数据,通过生成模型获得,越来越多地被用来增强和替代真实数据,为个人和企业提升数据的效用性。由于合成数据类似于真实数据,它可以加速数据驱动的知识发现,同时遵守数据保护法规,例如限制收集和获取真实数据的GDPR。这些模型在行业中的应用的一个关键要求是它们能够保护真实数据的隐私。以拥有不能自由共享且受漫长监管审计的病人数据集的医疗机构为例。或者,通过信任方首先训练生成模型,可以生成一整套病人的合成数据,并分发给所有机构,这些机构反过来基于这些数据设计自己的医学分析。

虽然生成模型的重点是产生与真实数据高度相似且不可区分的合成数据,但合成数据引起的真实数据隐私泄露的日益关注。这些研究突出了合成数据在特定领域的隐私漏洞,尤其是在图像处理中,并涉及各种生成模型,包括贝叶斯网络、生成对抗网络(GANs)和最近的扩散过程。这些隐私风险在攻击中具体化,能够在不同假设下获取训练数据,即白盒与黑盒攻击。

在表格数据领域,Anonymeter是第一个专注于合成表隐私和效用权衡的框架,并介绍了三种与表格数据相关的隐私攻击:i)通过合成数据集中的独特属性组合识别个体的单挑攻击;ii)通过在合成数据集中搜索邻居将两个或多个记录关联起来的可链接性攻击;iii)通过合成数据集推断未公开属性值的属性推断攻击。尽管阐明了量化隐私-效用权衡的重要性,Anonymeter专注于基于表格的GAN模型,留下了不同表格生成模型的权衡行为未被解决的问题。更重要的是,先前的研究在很大程度上未探索采用隐私增强策略,如差分隐私,对合成表格数据的影响。

差分隐私(DP)作为在发布数据时保护个人隐私问题的解决方案,已经受到广泛关注。为了将DP纳入深度神经模型的训练,带有随机梯度下降(SGD)的DP-SGD通过添加由隐私预算控制的校准统计噪声来模糊梯度更新。主要有两种DP分析框架,(ε,δ)-DP和新兴的f-DP,前者使用ε来定义隐私预算,后者使用分离值,即错误正面和错误负面之间的实际权衡函数与理想权衡函数(无隐私泄露)之间的距离,较小的隐私预算或分离值会导致向梯度添加更多的模糊噪声,降低底层模型的性能。在图像分类和合成中实现有意义的ε或分离值,同时获得令人满意的学习成果是一个长期的挑战。DP在表格生成模型上的隐私增强尚未探索,特别是涉及不同流派的生成模型。

作者认识到使用合成数据和当前解决方案之间存在两个研究差距:(i) 哪种类型的表格生成模型提供了有效的隐私-效用权衡,例如,GANs与扩散模型;(ii) 如何应用和参数化DP-SGD以增强合成表的隐私保证。在本文中,作者通过进行广泛的实证分析来解决这些问题,量化和改进表格生成模型的隐私-效用权衡。作者考虑了五种表格合成器,涵盖了高斯Copulas、CopulaGAN、CTGAN、ADS-GAN和表格扩散模型(TabDDPM)。作者对合成数据效用的评估指标包括数据相似性、可区分性和下游效用。至于隐私风险,作者考虑了四种攻击,即单挑、可链接性、属性推断攻击(AIA)和成员推断攻击(MIA)。在这些攻击中,MIA采用了更强的对抗性假设,利用了对生成模型及其训练数据集的了解。为了在不同对抗性知识下深入分析MIA,作者考虑了5种类型的MIA攻击,本研究共评估了八种攻击。作者对四个数据集的广泛评估突出显示,与三种其他基于GAN的合成器相比,表格扩散模型在数据质量方面取得了显著的成绩。在隐私风险方面,TabDDPM在单挑和可链接性方面表现令人满意,但在属性和特别是成员推断攻击方面表现不佳。

基于作者实证研究的见解,他们提出了一种新的差分隐私潜在表格扩散模型DP-TLDM,由自动编码器和扩散模型组成。与现有的TabDDPM不同,作者首先使用自动编码器网络将表格数据编码为连续的潜在空间。这带来了统一和紧凑的分类变量表示的优势,与典型的一位有效编码形成对比。然后,他们使用潜在表示作为输入,输入到骨干扩散模型中,该模型将数据合成捕获为一系列去噪过程。为了保护所提出的潜在表格扩散模型免受隐私攻击,他们使用DP-SGD训练自动编码器。作者遵循f-DP框架,通过分离度量——一种量化随机猜测与DP保护算法在假阳性和假阴性之间最大差异的度量来精确参数化DP-SGD。他们对DP-TLDM的广泛评估与DP-CTGAN和DP-TabDDPM进行了比较,其中DP-SGD用于训练CTGAN和TabDDPM,显示出卓越的性能——在保持较高合成数据效用的同时,显著降低了特别是针对MIA的隐私风险。作者做出了以下具体贡献:

  • 对五种表格合成器在八种隐私攻击下的效用-隐私权衡进行了广泛和深入的实证评估,包括强大的非盒子成员推断攻击。
  • 作者的关键见解是,与高斯Copula模型和基于GAN的模型相比,表格扩散显示出更高的合成数据质量。它能够抵御单挑、可链接性和属性推断攻击,但在MIA方面显示出较高的隐私风险。
  • 作者设计了DP-TLDM,这是一种新颖的潜在表格扩散模型,通过DP-SGD训练,使用批量裁剪对梯度进行裁剪,并采用高斯噪声机制。作者遵循f-DP框架,并采用理论分离值作为隐私度量。
  • 作者对DP-TLDM与DP-CTGAN和DP-TabDDPM的评估表明,DP-TLDM能够有效地降低隐私风险,同时在所有隐私预算值下保持高合成数据质量。因此,DP-TLDM显示出与其他合成器类似的隐私风险水平,但在数据相似性方面优于它们平均35%,在下游任务的效用方面高出15%,在数据可辨识性方面高出50%。

2 RELATED STUDIES(相关工作)

在本节中,作者提供了生成模型的一般概述,这些模型最初是为图像数据设计的。特定于表格的生成模型将在第3节中讨论。

生成模型在机器学习中获得了广泛的关注,从简单的到深度的生成架构都有。基本的机器学习模型,包括高斯混合模型(GMM)和朴素贝叶斯,使用联合概率分布来表示和采样数据。虽然这些模型是最早用于数据生成的模型之一,但它们通常表达能力有限。深度生成模型在捕获复杂数据模式方面表现出色,现在被更广泛地使用。

生成对抗网络(GANs)通常由一个生成器和一个鉴别器组成,是最流行的深度生成模型之一。基于流的生成模型,也称为归一化流,是另一种显式模型,它使用一系列可逆变换函数将简单分布转换为固有的复杂数据分布。扩散模型是最近在图像合成、文本到图像生成、时空数据建模等领域表现出色而出现的生成模型。这些模型通过前向扩散过程操作,对原始数据进行噪声化,然后通过随后的逆过程去噪数据。

尽管深度生成模型的出色表现和应用,最近的工作也对这些模型的潜在隐私风险提出了重大关注。关于隐私攻击的相关研究可以按各种攻击类型分类,包括(i)成员推断攻击(MIA),推断某个特定数据记录是否在训练集中;(ii)属性推断攻击,推断训练数据的敏感属性;(iii)复制攻击,重现训练数据或隐藏的生成模型;(iv)对抗性攻击,在推理阶段通过精心制作的输入数据欺骗生成模型;(v)后门攻击,在训练阶段向模型中插入隐藏的漏洞。

成员推断攻击可以进一步分类为白盒、无盒和黑盒攻击,这取决于模型信息的可用性。在白盒攻击中,攻击者可以访问生成器的内部,有几项工作提出了基于损失的技术来对扩散模型进行MIA。同时,来自生成器的梯度信息可以被用来对GANs进行MIA。在灰盒设置中,攻击者对受害者模型拥有部分控制权。在这种情况下,通过调整生成器的潜在代码来攻击GANs,而从不同的扩散步骤中获得的中间生成结果被用来推断查询在扩散模型中的成员资格。最具有挑战性和现实性的情况发生在黑盒设置中,攻击者先前的知识仅限于生成的样本。有一项工作通过训练来自GANs的阴影鉴别器来输出成为训练样本的信心分数。其他计算量较小的攻击依赖于概率的波动或查询记录与其邻居之间的语义距离来推断成员资格。

已经研究了隐私增强方法来解决潜在的隐私风险。简单的防御策略,如微调、去重训练数据和数据增强已被提出以反击恶意攻击。尽管这些技术易于实施,但它们并没有表现出很高的有效性。更复杂的策略已经为不同的生成模型进一步开发。例如,privGAN、RoCGAN和PATE-GAN通过对模型架构的战略性更改,为GANs提供隐私保护。虽然这些策略表现出增强的有效性,但它们本质上是模型特定的,限制了它们在各种生成模型范式中的更广泛适用性。

相反,差分隐私已被证明是防止隐私泄露的更通用和有效的防御机制。DP-SGD及其变体已被广泛采用,用于深度生成模型的隐私训练。DPGAN直接将DP-SGD算法应用于GANs中的鉴别器组件。相反,GS-WGAN在从鉴别器到生成器的梯度传输上实现了DP-SGD。DP-SGD的效用也超越了GANs,并应用于表格数据合成的归一化流。此外,在新兴的扩散模型的背景下,也考虑了DP-SGD的适应。一项研究应用了经典的DP-SGD算法,并进行了一项修改,涉及在计算损失时采样单个数据点的多个时间步。在此基础上,另一项研究进一步展示了三种其他技术的效用,即预训练、增强多样性和修改的时间步采样。虽然DP-SGD被认为是隐私泄露的强大对策,但它以样本质量和更长的训练时间为代价。

3 RISK-UTILITY QUANTIFICATION(风险效用量化)

本节介绍作者的风险-效用量化框架,如图1所示。给定原始数据集,合成器生成合成数据,然后从两个关键角度进行评估:效用和隐私风险。效用量化方面,将报告三个指标:i) 相似性,ii) 可区分性,iii) 效用。下面我们将提供有关所使用的合成器和效用指标的更多细节。关于隐私风险,作者考虑四种不同的攻击:i) 单挑,ii) 链接,iii) 属性推断攻击(AIA),iv) 成员推断攻击(MIA),以衡量合成数据中的不同隐私风险维度。下面我将描述这些攻击和相关指标。

在这里插入图片描述

3.1 生成模型

作者的框架中采用了六种生成模型,包括基于GAN的、统计和基于扩散的模型,具体如下所述。

基于GAN的模型。作者考虑了三种不同的生成对抗网络(GAN)模型。首先,CTGAN专注于条件生成的GAN,并采用特定模式的归一化处理连续列中的非高斯分布,并使用条件生成器来解决分类列中的类别不平衡问题。其次,CopulaGAN通过使用基于累积分布函数的变换和高斯Copulas来改进CTGAN。它还使用似然方法进行推断,增强了CTGAN学习真实数据趋势的能力。第三,ADS-GAN是一个条件GAN框架,它在生成合成数据的同时最小化重新识别风险。通过在生成器的损失函数中纳入记录级可识别性度量,实现了一定程度的匿名化。

统计模型。这里我们考虑高斯Copula模型。在高斯Copula(GC)方法中,使用训练数据获得一个高斯联合概率分布,该分布捕获边际分布和相互依赖结构。

扩散模型。扩散模型最近已成为计算机视觉和NLP中生成模型的领先范式。在作者的框架中,我们考虑了TabDDPM,它将扩散模型扩展到表格数据集,并优于现有的GAN/VAE替代方案。它采用高斯扩散过程,这是原始DDPM的关键组成部分,有效地对数值列进行建模。它还使用多项式扩散过程来模拟分类和二元特征,并引入跨类别的均匀噪声来破坏数据。

上述模型是遵循两个Python库来实现表格数据合成的:i) 作者使用Synthetic Data Vault 1对CTGAN、CopulaGAN和高斯Copula进行实现,ii) 使用Synthcity 2对贝叶斯网络、ADS-GAN和TabDDPM进行实现。为确保公平的比较分析,所有模型中使用的神经网络具有相同的架构,包括三个多层感知器(MLP)层,每层包含256维。

3.2 效用指标

为了评估合成数据的质量,作者使用三个指标,即相似性、可区分性和效用来评估合成结果是否与原始数据相似以及是否具有实际用途。这些指标遵循合成数据生成中的常见实践,并报告为0-100范围内的分数。

相似性。相似性指标衡量合成数据中列的分布和相互关系的密切程度,确保合成数据捕获原始数据的统计模式和特征。我们的相似性指标由五个相似性度量组成:

  • 列相似性计算原始和合成列之间的相关性,对于数值列使用皮尔逊系数,对于分类列使用Theil’s U。
  • 相关性相似性衡量每对列的相关系数之间的相关性。首先计算数值对的皮尔逊相关性,分类对的Theil’s U,以及混合情况的相关比率。然后计算这些系数之间的相关性。
  • 统计相似性使用Spearman’s Rho相关性来关联合成数据和原始数据中数值列的描述性统计(最小值、最大值、中位数、均值和标准差)。
  • Jensen-Shannon相似性使用Jensen-Shannon距离来衡量原始和合成列的概率分布之间的距离。使用1减去这个距离,以便更高的分数更好,如其他指标。
  • Kolmogorov-Smirnov相似性使用Kolmogorov-Smirnov距离来衡量每个原始和合成列的累积分布之间的最大差异。同样,使用1减去距离,以便更高的分数更好。

可区分性。此指标衡量合成数据与真实数据的相似性,以至于二元分类器&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值