加密数据上共现关键词隐私保护方案研究
1. 背景与问题提出
在数据存储和处理中,关键词的相关性分数(如词频 TF 和词频 - 逆文档频率 TF - IDF)包含了文档和数据集的关键词分布信息,这些信息不应直接暴露给云服务器。因此,需要对相关性分数和索引关键词进行加密,同时加密方案要能让云服务器直接根据关键词的加密相关性分数对文档进行排序。
然而,现有的一些加密方案存在问题。例如,顺序保留加密(OPE)和一对多 OPE 等方案由于在将明文分数映射到加密值时随机性不足,会泄露频率信息。而像 Paillier 加密等方案虽然能防止频率信息泄露,但不能保留明文顺序,云服务器无法对文档进行排序。
2. 预备知识
- 词频(TF) :关键词的 TF 值体现了其在对应文档中的相关性。文档 $d_i$ 中关键词 $kw$ 的归一化 TF 值可通过以下公式计算:
[TF(kw, d_i) = \frac{1}{|d_i|}(1 + \log(tfi))]
其中,$|d_i|$ 表示文档的长度,即文档 $d_i$ 中唯一关键词的总数,$tfi$ 表示关键词 $kw$ 在文档 $d_i$ 中出现的次数。 - 频率分析攻击 :该攻击旨在从加密索引的加密 TF 值中推断出明文索引关键词。云服务器通过将相同加密 TF 值的频率与公开可用数据集中频繁出现关键词的明文 TF 值频率相关联,推断数据集中频繁出现的关键词。例如,若数据所有者将 Request for Comments 数据集以加密形式存储在云服务器上,云服务器可根据背景知识推测“computer”、“
超级会员免费看
订阅专栏 解锁全文
1116

被折叠的 条评论
为什么被折叠?



