基于网页内容的网络垃圾邮件分析与检测
1. 引言
在网络环境中,垃圾网页的存在严重影响了用户体验和搜索引擎的效率。为了有效检测网络垃圾邮件,我们提出了一种基于内容分析的方法——SAAD。该方法综合考虑了多种启发式规则,并结合了不同的分类技术,以提高检测的准确性。
2. 启发式规则
我们考虑了基于网络垃圾邮件页面理论特征的启发式规则,例如大量隐藏文本的存在、大量使用重定向、脚本函数、动态函数调用、ActiveX 等。然而,这些启发式规则的效果并不如预期,因此我们将不再深入讨论。
我们认为,某些技术虽然可以用于合法目的,但它们的大量使用和组合是网络垃圾邮件页面的一个决定性指标。
3. 网络垃圾邮件检测方法
SAAD 方法基于内容分析,旨在检测所有已知类型的网络垃圾邮件,包括伪装、链接垃圾邮件、重定向垃圾邮件、恶意软件垃圾邮件和内容垃圾邮件。
为了合理组合启发式规则,我们尝试了不同的分类技术,如决策树、基于规则的技术、神经网络等。最终,我们发现使用决策树可以获得最佳结果,具体选择了 C4.5 算法。
为了进一步提高结果,我们评估了“装袋”(Bagging)和“提升”(Boosting)两种技术。这两种技术都创建了一组 N 个分类器,将获得最佳结果的分类器组合起来,构建一个复合分类器。
- 装袋(Bagging) :创建 N 个包含 n 个随机元素的子集,有放回地抽样。这样可以得到 N 个分类器。每个要分类的网页都需要由 N 个分类器中的每一个进行评估。网页将被添加到的类别(垃圾邮件或非垃圾邮件)取决于大多数 N 个分类器的投票。 <
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



