关联规则挖掘中的隐私问题深度解析
在数据挖掘领域,隐私保护是一个至关重要的话题。随着数据的广泛收集和分析,如何在挖掘有价值信息的同时保护数据的隐私成为了研究的焦点。本文将深入探讨关联规则挖掘(ARM)中的隐私问题,包括输入数据隐私和输出隐私两个方面。
1. 评估指标
在关联规则挖掘中,有两个重要的评估指标用于衡量挖掘结果的准确性,分别是支持误差(Support Error,μ)和标识误差(Identity Error,σ)。
-
支持误差(μ)
:反映了正确识别为频繁项集的重构支持值的平均相对误差(以百分比表示)。计算公式为:
[
\mu = \frac{1}{|F|} \sum_{f \in F} \frac{|\hat{sup}_f - sup_f|}{sup_f} \times 100
]
其中,$|F|$ 表示频繁项集的数量,$\hat{sup}_f$ 是重构支持值,$sup_f$ 是实际支持值。
-
标识误差(σ)
:反映了识别频繁项集的百分比误差,由两部分组成:$\sigma^+$ 表示误报率,$\sigma^-$ 表示漏报率。计算公式如下:
[
\sigma^+ = \frac{|R - F|}{|F|} \times 100
]
[
\sigma^- = \frac{|F - R|}{|F|} \times 100
]
其中,$R$ 是重构的频繁项集,$F$ 是正确的频繁项集。
2. 输入数据隐私的发展历程
从数据库的角度来看,隐私保护数据挖掘领域的发展受到了早期研究的推动。研究人员开始将隐私保护技术扩展到不同的挖掘模式,如关联规则、聚类等。对于关联规则挖掘,主要有两个研究方向:提供输入数据隐私和保护敏感输出规则。
2.1 MASK 算法
MASK 算法提出了一种简单的用户数据概率失真方法,通过从预定义的分布函数生成随机数来对稀疏布尔数据库(如市场篮子数据)进行处理。具体操作是,以参数化概率 $p$ 翻转每个 0 或 1 位,或以互补概率 $1 - p$ 保持不变。该算法使用平均隐私作为隐私度量,通过理论和实证分析表明,可以通过调整 $p$ 参数同时实现可接受的平均隐私和良好的准确性。然而,挖掘失真后的数据库可能比挖掘原始数据库耗时得多。后续工作通过推广失真过程、选择合适的失真参数以及在重构过程中应用集合论优化,提高了运行效率。
2.2 Cut - and - Paste 算子
该算子引入了隐私泄露的概念,即随机化事务中项集 $I$ 的存在可能导致隐私泄露。为了解决这个问题,提出了一系列随机化隐私算子,包括均匀随机化和选择大小(SaS)随机化算子。SaS 随机化算子的步骤如下:
1. 对于长度为 $m$ 的客户事务 $t_i$,首先以概率 $p_m[j]$ 从 $[1, m]$ 中选择一个随机整数 $j$。
2. 从真实事务中均匀随机选择 $j$ 个项插入到随机化事务中。
3. 最后,将数据库中不在真实事务中的剩余项的均匀随机选择部分(即 $t_i$ 中的 $C$ 项)插入到随机化事务中。
Cut - and - Paste(C&P)算子是 SaS 算子的一种变体,它引入了一个截断整数 $K_m$,$j$ 从 $[1, K_m]$ 中选择。如果 $j > m$,则 $j$ 设为 $m$。C&P 算子与 SaS 算子的另一个区别是,后续的随机插入操作不仅针对不在真实事务中的项,还针对真实事务中未被选择的剩余项。通过实验表明,即使在严格的隐私要求下,C&P 随机化数据库仍能正确识别约 80% - 90% 的“短”频繁项集(长度不超过 3 的频繁项集),但如何安全地随机化和挖掘长事务仍是一个开放问题。
2.3 分布式数据库中的输入数据隐私
在分布式数据库的场景中,每个站点只愿意共享数据挖掘结果而不共享源数据。对于垂直分区的数据,解决方案需要生成和计算大量独立的线性方程,这对于包含数百万客户交易的市场篮子数据库来说可能成本较高。而对于水平分区的数据,问题被建模为安全多方计算,并提出了一种在挖掘过程中最小化信息共享且开销不大的算法。
2.4 代数失真机制
代数失真机制与之前的统计方法不同,它需要挖掘者和用户之间进行双向通信。挖掘者计算 $E_k$,它对应于当前扰动数据库 $V_c$ 的 $V_c^T V_c$ 的最大 $k$ 个特征值的特征向量。$k$ 的选择在隐私和准确性之间进行权衡,较大的 $k$ 值提供更高的准确性但较低的隐私,较小的 $k$ 值则相反。用户使用 $E_k$ 处理其真实事务向量,离散化输出并添加噪声。该机制使用的隐私度量是通过测量“不需要”的项包含在扰动事务中的概率来评估隐私水平,其中“不需要”的项是指不在任何频繁项集中出现的项。
2.5 FRAPP 框架
FRAPP 是一个广义的矩阵理论框架,为隐私保护挖掘的随机扰动方案设计提供了系统的方法。该框架支持基于放大的隐私,其执行和内存开销与在真实数据库上进行经典挖掘相当。FRAPP 的显著特点是对随机数据扰动和模型重构过程中的误差来源进行了定量表征。通过该框架,许多早期技术可以被视为 FRAPP 扰动矩阵的特殊实例,并且可以通过选择合适的矩阵元素构造新的扰动技术,即使在严格的隐私保证下也能提供高度准确的挖掘结果。
以下是输入数据隐私相关技术的对比表格:
| 技术 | 特点 | 优势 | 劣势 |
| ---- | ---- | ---- | ---- |
| MASK 算法 | 简单概率失真,使用平均隐私度量 | 可调整参数实现隐私和准确性平衡 | 挖掘失真数据库耗时多 |
| Cut - and - Paste 算子 | 引入隐私泄露概念,多种随机化操作 | 能在严格隐私要求下识别部分频繁项集 | 长事务处理准确性低 |
| 分布式数据库解决方案 | 针对不同分区方式的数据处理 | 最小化信息共享 | 垂直分区计算成本高 |
| 代数失真机制 | 双向通信,基于特征向量计算 | 可权衡隐私和准确性 | 隐私估计依赖 ARM 参数 |
| FRAPP 框架 | 系统设计随机扰动方案 | 误差定量表征,可构造新技术 | - |
下面是输入数据隐私技术发展的 mermaid 流程图:
graph LR
A[早期研究] --> B[MASK 算法]
A --> C[Cut - and - Paste 算子]
B --> D[后续优化]
C --> E[C&P 算子]
A --> F[分布式数据库研究]
A --> G[代数失真机制]
A --> H[FRAPP 框架]
3. 输出隐私:频繁项集和关联规则隐藏
在知识隐藏领域,频繁项集和关联规则隐藏(ARH)方法用于提供输出隐私。以下通过一个场景说明 ARH 算法的必要性:假设大型超市连锁 BigMart 的采购总监与 Dedtrees 纸业公司谈判,同意对方访问客户购买数据库。Dedtrees 通过关联规则挖掘发现购买脱脂牛奶的人也购买绿纸,随后开展优惠券营销活动,导致绿纸销售受影响、价格上涨,最终 BigMart 在后续谈判中处于不利地位。这表明 BigMart 在提供数据库前应采用 ARH 算法对竞争信息进行清理。
ARH 问题可视为数据库推理控制问题的变体,其主要任务是清理数据,使关联规则挖掘算法无法发现敏感规则,同时能挖掘出所有非敏感规则。
3.1 术语和预备知识
关联规则挖掘(ARM)旨在发现数据库中频繁共现的项集,并生成关联规则。生成关联规则 $C_x \Rightarrow C_y$ 的项集 $C_x \cup C_y$ 称为生成项集,分为规则箭头左侧的左手边(LHS,即 $C_x$)和右侧的右手边(RHS,即 $C_y$)。包含 $k$ 个项的项集称为 $k$ - 项集。
在 ARM 中,知识隐藏的目标是对原始数据集进行清理,以实现以下几个方面:
-
隐藏敏感规则
:从数据所有者的角度来看,任何被视为敏感的规则都不能从清理后的数据集(在预先指定的置信度和支持度阈值或更高阈值下进行挖掘)中被发现。
-
保留频繁非敏感规则
:所有非敏感的频繁规则都能在清理后的数据库中,在预先指定的置信度和支持度阈值下被成功挖掘出来。
-
不生成幽灵规则
:在挖掘清理后的数据库时,在预先指定的置信度和支持度阈值下,不能发现任何在原始数据集中未被挖掘为频繁的规则。
-
最小化数据集失真
:清理后的数据集应尽可能与原始数据集相似,即隐藏过程中受影响的数据项数量应保持最少。
3.2 ARH 算法的分类
为了对各种 ARH 算法进行分类,我们使用一组正交维度,具体如下:
-
驱动维度
:根据隐藏算法是使用规则的支持度还是置信度来驱动隐藏过程,将其分为基于支持度的和基于置信度的。
-
修改维度
:与隐藏算法对原始数据的修改形式有关,包括失真和阻塞两种形式。失真是指将 1 替换为 0,将 0 替换为 1;阻塞是指将原始值替换为问号(未知值),以迷惑对手对实际值的判断。
以下是 ARH 算法分类的表格:
| 分类维度 | 类型 | 说明 |
| ---- | ---- | ---- |
| 驱动维度 | 基于支持度 | 使用规则支持度驱动隐藏过程 |
| 驱动维度 | 基于置信度 | 使用规则置信度驱动隐藏过程 |
| 修改维度 | 失真 | 1 与 0 相互替换 |
| 修改维度 | 阻塞 | 原始值替换为问号 |
下面是 ARH 算法分类的 mermaid 流程图:
graph LR
A[ARH 算法] --> B[驱动维度]
A --> C[修改维度]
B --> B1[基于支持度]
B --> B2[基于置信度]
C --> C1[失真]
C --> C2[阻塞]
综上所述,关联规则挖掘中的隐私问题涉及输入数据隐私和输出隐私两个重要方面。在输入数据隐私方面,多种技术如 MASK 算法、Cut - and - Paste 算子等不断发展和优化,以在保护数据隐私的同时提高挖掘的准确性和效率。而在输出隐私方面,频繁项集和关联规则隐藏(ARH)算法为保护敏感知识提供了有效的手段。随着数据挖掘技术的不断发展,未来需要进一步研究和改进这些隐私保护方法,以适应日益复杂的数据环境和隐私需求。
关联规则挖掘中的隐私保护技术解析
超级会员免费看
1280

被折叠的 条评论
为什么被折叠?



