探寻搜索隐私保护之道
1. 隐私问题
2006 年,一个在线搜索引擎为研究目的公开了其数据库,该数据库包含约 65 万用户三个月的搜索记录。搜索记录包含用户名、查询时间、查询内容以及查询后点击的链接。数据库所有者用随机数替换用户名对数据进行匿名化处理,但这却引发了隐私灾难。发布几天后,部分用户的私人生活信息被公开,懂基础 SQL 且有好奇心的人都能查看。
隐私侵犯的节点难以界定,可能是搜索引擎记录查询时,或是记录与用户名关联的查询时,亦或是长时间保留查询记录,又或是公开查询记录时。
每个查询都有上下文,这是隐私泄露的潜在风险。例如,先查询癌症治疗信息,几周后查询假发,单个假发查询就有了更多含义。为有效匿名化数据,可让查询失去上下文,即给每个查询分配随机配置文件,再用随机数替换用户名。这样能有效防止基于搜索查询推断个人隐私信息。
2. 数据共享的依据
若搜索引擎在发布数据库前打乱查询顺序,或许能减少隐私问题。搜索引擎每天存储大量查询记录,即便部分匿名公开,也存在隐私侵犯风险。
搜索机制简单,用户提交文本查询,搜索引擎处理后返回结果页,结果页链接常通过搜索引擎跳转以便记录交互。已有一些隐私增强技术(PETs)处理潜在隐私问题。
2.1 搜索数据分析
对 65 万搜索记录随机抽样,选取 65,517 个配置文件,共 3,558,412 个查询。唯一查询(Qu)是样本中仅出现一次的查询,共享查询(Qs)是样本中出现多次的查询。分析显示,共享查询数量少于唯一查询数量(n(Qsi) = 479,688,n(Quj) = 736,967),但共享查询实际更受欢迎(n(Qsi) = t -
基于DHT的搜索隐私保护
超级会员免费看
订阅专栏 解锁全文
2092

被折叠的 条评论
为什么被折叠?



