行人动态自动测量的挑战与解决方案
1. k - 匿名性算法及评估
在行人动态的自动测量中,k - 匿名性是一种重要的隐私保护方法。但在实际应用中,检测到的化名截断可能会导致多化名的检测化名数量少于 k,此时只能丢弃这些多化名,这会严重影响行人计数的准确性。
为避免丢弃多化名,可重新映射检测到的化名以保留 k - 匿名性。一种简单的方法是为违反 k - 匿名性的前 k 个检测化名生成一个未使用的多化名,再为接下来的 k 个检测化名生成另一个未使用的多化名,以此类推。不过,这种方法在统计行人从 A 点到 B 点的移动数量时效果不佳,因为在 B 点生成多化名时会丢失与 A 点检测结果的关联。
因此,需要一种系统的方法来映射违反 k - 匿名性的检测化名(简称违规化名),并将该方法应用于所有传感器。具体步骤如下:
1. 假设传感器在特定时期有 n 个违规化名。
2. 对这 n 个化名进行排序。
3. 仅保留前 ⌊n/k⌋ 个化名。
4. 利用剩余的 n - ⌊n/k⌋ 个违规化名,系统地增加剩余前几个违规化名的计数。
通过这种方式,原则上几乎不会丢失其他违规化名的计数。而且,如果在 A 点和 B 点都使用此过程,两个位置会为相同的检测化名分配相同的多化名。
在评估方面,使用了模拟和真实世界的数据。真实世界的数据采用了北京地铁出行数据,该数据集可用于模拟基于 WiFi 的检测。将不同的时期长度、截断化名的大小(即保留的位数)以及不同的 k 值应用于上述 k - 匿名性算法。每个进站或出站计数器被视为一个传感器,各计数器应用算法并将 k - 匿名化数据发送到中央服务器。
对于孤立轨迹(即特定两
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



