反垃圾邮件与图上总支配集博弈研究
反垃圾邮件相关技术
垃圾邮件的处理是一场持久战,不存在一种能完全解决该问题的新技术,也没有所谓的“正确方法”或“最佳方法”。减少垃圾邮件的最佳方式是协调合作地运用尽可能多的方法。
常见的反垃圾邮件技术如下:
1. 黑名单设置 :这可能是减少垃圾邮件的首要方法。早在1975年,Postel就提出目的主机/IMP(邮件服务器)应保留一份拒绝的源列表。如今,许多互联网服务提供商(ISP)和公共网络电子邮件服务提供商(如Hotmail)普遍使用黑名单。
2. 贝叶斯过滤 :这是一种流行的垃圾邮件过滤技术。在贝叶斯过滤器中,邮件会被分词以统计单词的出现概率。如果一封邮件包含许多仅在垃圾邮件中使用的单词,而很少有在正常邮件中使用的单词,那么它很可能是垃圾邮件。经过良好调整的贝叶斯过滤器可以为个人用户或组织带来显著的性能提升,但在ISP层面运行时,其性能会大幅下降。
除了上述技术,信息提取和分割也备受关注。例如,W. Cohen的研究提出了一种从电子邮件中提取签名和回复行的学习方法,比较了多种学习算法,在一个包含617条消息的数据集上,实验提取准确率达到了98 - 99%以上。然而,在邮件地址提取方面,如何识别和提取相关字符串仍是未来需要克服的障碍。
为了构建用于垃圾邮件过滤的阻止列表,我们自动识别和提取垃圾邮件中的三种类型的联系信息实体,并将其转换为字符串匹配模式。为了克服阻止列表的主要缺点(即查询时间随列表中模式数量的增加而增加),我们开发了一种压缩算法来优化列表中的模式,该算法针对电子邮件地址和URL链接的构建进行了优化,实验结果表明该压缩算法效率
超级会员免费看
订阅专栏 解锁全文
4076

被折叠的 条评论
为什么被折叠?



