结合Winnow和正交稀疏二元组进行增量垃圾邮件过滤
1. 引言
垃圾邮件过滤是一个具有重要实际应用的文本分类任务。随着互联网上垃圾邮件数量的不断增加,这一任务受到了广泛关注。目前,主流的反垃圾邮件过滤系统大多采用概率方法,如基于朴素贝叶斯的过滤器,但这些方法存在一定的局限性。
传统的基于关键字、指纹、白名单/黑名单和启发式的过滤器,如SpamAssassin,虽然曾经被广泛应用,但随着垃圾邮件发送者采取特定的反制措施,其准确性逐渐下降。当前最先进的反垃圾邮件过滤器大多是概率系统,如基于朴素贝叶斯的SpamBayes和可建模为马尔可夫随机场的CRM114判别器。然而,像最大熵模型等方法缺乏对垃圾邮件过滤至关重要的增量学习特性,即它们无法在单次遍历数据时自适应调整分类模型。
作为一种统计但非概率的替代方案,我们研究了增量式的Winnow算法。实验表明,与朴素贝叶斯相比,Winnow将错误率降低了75%,与CRM114相比,降低了50%以上。同时,大多数现有方法所考虑的特征空间要么表达能力有限,要么计算成本过高。我们提出了正交稀疏二元组(OSB)作为一种特征组合技术,它克服了这些弱点,在保持高表达能力的同时,降低了计算成本。
2. Winnow分类算法
Winnow算法是一种统计但非概率的算法,它不直接计算类别的概率,而是为每个类别计算一个分数。我们的Winnow变体适用于二分类和多分类任务。
对于每个类别,算法维护一个权重向量,其中第i个特征的权重为。当所有活跃特征的权重之和(即分数)超过预定义的阈值时,算法为该类别返回1,否则返回0。活跃特征是指在待分类实例中存在的特征。
算法的目标是在特征空间中