利用网络搜索检测推特虚假账户
1. 引言
随着社交网络的日益流行,垃圾信息问题也愈发严重。推特社交网络在垃圾信息检测方面面临着新的挑战。由于推特推文强制限制在 140 字符以内,许多用于检测电子邮件垃圾信息的工具不再适用,因为不能再依赖合法消息更长这一特征。同时,URL 缩短器的流行进一步模糊了消息内容,使原本就困难的 URL 黑名单任务变得更加棘手。此外,推特网络中的社交链接是非对称的,这也使依赖网络中隐式信任的检测方法变得复杂。
目前的垃圾信息检测策略通常依赖于账户活跃后才显现的特征,如消息格式、内容以及在社交图中的位置。这就导致了检测延迟,即使是能够快速训练的检测方法,也无法阻止最初注入系统的垃圾信息。
然而,在线社交网络(OSNs)的爆炸式流行也带来了另一个影响:合法用户通常会参与多个相互关联的在线服务,并且在不同网站上使用相同或相似的名称。因此,检测同一用户在多个网站上的存在并不困难。相反,垃圾信息发送者很难模仿这种动态的网络存在。为了检测虚假账户,可以通过测量这种分布式的网络存在来实现。这种方法不仅对垃圾信息发送者的任何升级手段都具有极强的鲁棒性,而且可以利用现有的网页内容索引快速且低成本地执行。通过简单的网络搜索,就可以测量账户名称或类似标识符在网络上出现的频率,从而判断账户是否可能合法。
2. 背景
推特上一种常见的垃圾信息形式是“提及”,即一个用户在消息中使用另一个用户的名称,为被提及的用户生成通知。由于执行提及的用户不必与接收者有任何关联,这些消息可能是未经请求的。通常,这些提及是对垃圾账户关注的关键词的回应。例如,用户 1 在推文 “I recovered my phone!” 中使用了 “phone” 一词,收到
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



