用户名的独特性与可追溯性探究
在当今数字化时代,用户名是我们在网络世界中的重要标识。那么,用户名究竟有多独特,又能在多大程度上被追溯呢?接下来,我们将深入探讨这些问题。
1. 数据集介绍
本次研究使用了多个不同来源的用户名数据集:
- 从 eBay 账户收集的用户名。
- 从研究中心 LDAP 目录收集的 16000 个用户名。
- 来自之前研究的两个大型用户名列表,分别是“芬兰”数据集和从 Myspace 收集的用户名列表。其中,“芬兰”数据集来自 2007 年 10 月公开披露的信息,包含近 79000 个用户账户的用户名、电子邮件地址和密码,很可能是通过黑客手段从多个芬兰网络论坛服务器获取的;MySpace 数据集来自 2006 年 10 月的一次网络钓鱼攻击,攻击者设置了一个虚假的 MySpace 登录网页,该数据集包含超过 30000 个唯一用户名。
这些数据集有三个主要用途:
- 结合来自 eBay 和 Google 的 1000 万个用户名列表,训练用于概率估计的马尔可夫链模型。
- 利用 Google 个人资料中的信息收集真实证据,测试在用户名略有不同的情况下链接多个公共个人资料的技术。
- 使用所有数据集来描述用户名的独特性,并描绘实际中信息惊奇度的分布。
值得注意的是,Google 个人资料的一个特性为我们提供了用于验证的真实数据。用户可以选择提供他们在不同在线社交网络(OSN)和网络服务上的其他账户列表,这为我们提供了部分个人资料中关联账户和用户名的真实情况。
在实验中我们发现,不同网络服务的用户名创建策略有很大差异,但几乎所有服务都使用字母、数字和点(.)作
超级会员免费看
订阅专栏 解锁全文
4505

被折叠的 条评论
为什么被折叠?



