邮件垃圾邮件检测与云存储访问控制管理
邮件垃圾邮件检测的多层模型
垃圾邮件不仅烦人,还会给组织和个人用户造成经济损失。为了解决这一问题,研究人员聚焦于基于监督机器学习技术的集成方法,并借助开源工具 SpamBayes 来实现。
多层模型的分类规则
在对邮件进行分类时,有多种方法会将 Spam Bayes 分类出的垃圾邮件和灰色邮件进一步细分为明确的垃圾邮件和正常邮件。多层模型会依据这些分类结果,通过以下投票系统规则来预测一封邮件是垃圾邮件还是正常邮件:
- 若四种方法的分类结果一致,则邮件分类结果为该一致的分类决策。
- 若三种方法的分类结果一致,则邮件分类结果为该一致的分类决策。
- 若两种方法的分类结果一致,则邮件分类结果为正常邮件。这样做的目的是减少误判为垃圾邮件的情况(FP),因为一定程度的漏判为垃圾邮件(FN)是可以接受的,但误判为垃圾邮件是不可接受的。
多层模型与 SpamBayes 的集成
SpamBayes 会将邮件分为垃圾邮件、正常邮件和灰色邮件三类。为了消除灰色邮件这一类别,研究人员将多层模型应用于被标记为灰色和垃圾的邮件。具体做法是,先单独测试多层模型在数据集上的性能,然后将多层模型与 SpamBayes 集成,对灰色邮件进行分类,并对 SpamBayes 移至垃圾文件夹的“垃圾邮件”进行重新分类。
实验使用了 10 个数据集来测试模型在误判率(FP)和漏判率(FN)方面的性能。结果表明,多层模型显著提高了 SpamBayes 的性能,将整体误判率降低到了 0.2% 以下,即模型的准确率达到了 99.8%,这是一个非常令人鼓舞的改进。
以下是
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



