客户端垃圾邮件检测的多层模型
1. 引言
垃圾邮件以多种形式存在,如垃圾邮件、网络垃圾、垃圾短信和社交垃圾等。牛津词典将垃圾邮件定义为在互联网上发送给大量收件人的无关消息。用户收件箱中的垃圾邮件有多种形式,包括网络钓鱼、图像垃圾邮件、拒绝服务攻击和恶意软件传播等,给用户和组织带来了诸多负面影响,如烦恼、生产力损失、个人信息泄露、系统崩溃和财务损失等。
在过去十多年里,垃圾邮件的比例在 36% - 95% 之间波动,2010 年达到顶峰的 96%,到 2015 年 4 - 6 月降至约 53%。如今,电子邮件是主要的通信方式之一,2015 年每天收发的商业电子邮件超过 1160 亿封,且这一趋势还将持续。因此,每天至少有 580 亿封邮件是垃圾邮件。
多年来,人们尝试了各种控制垃圾邮件的方法,如黑名单、白名单、灰名单、内容过滤、人工免疫系统过滤、基于信誉的过滤等,但问题仍然存在,仍需进一步研究。其中,机器学习技术在内容过滤方面取得了一定的成功和普及。
服务器端的邮件过滤存在局限性,过于严格会导致大量误判(合法邮件被标记为垃圾邮件),过于宽松则会导致大量漏判(垃圾邮件被标记为合法邮件)。因此,客户端过滤至关重要。许多开源和商业工具可作为附加组件提供客户端过滤功能,重点是过滤漏过服务器端过滤的垃圾邮件。
朴素贝叶斯内容过滤技术很受欢迎且取得了一定成功,其中 SpamBayes 是基于朴素贝叶斯分类的开源内容过滤工具,可将邮件分为垃圾邮件、正常邮件和不确定邮件(灰色邮件)。然而,垃圾邮件发送者不断创新,邮件内容包含更多非文本特征,SpamBayes 等基于文本的过滤机制难以识别。为提高其性能,我们引入非文本特征。
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



