35、结合Winnow和正交稀疏二元组进行增量垃圾邮件过滤

结合Winnow和正交稀疏二元组进行增量垃圾邮件过滤

1. 引言

垃圾邮件过滤是一个具有重要实际应用的文本分类任务。随着互联网上垃圾邮件数量的不断增加,这一任务受到了广泛关注。目前,主流的反垃圾邮件过滤系统大多采用概率方法,如基于朴素贝叶斯的过滤器,但这些方法存在一定的局限性。

传统的基于关键字、指纹、白名单/黑名单和启发式的过滤器,如SpamAssassin,虽然曾经被广泛应用,但随着垃圾邮件发送者采取特定的反制措施,其准确性逐渐下降。当前最先进的反垃圾邮件过滤器大多是概率系统,如基于朴素贝叶斯的SpamBayes和可建模为马尔可夫随机场的CRM114判别器。然而,像最大熵模型等方法缺乏对垃圾邮件过滤至关重要的增量学习特性,即它们无法在单次遍历数据时自适应调整分类模型。

作为一种统计但非概率的替代方案,我们研究了增量式的Winnow算法。实验表明,与朴素贝叶斯相比,Winnow将错误率降低了75%,与CRM114相比,降低了50%以上。同时,大多数现有方法所考虑的特征空间要么表达能力有限,要么计算成本过高。我们提出了正交稀疏二元组(OSB)作为一种特征组合技术,它克服了这些弱点,在保持高表达能力的同时,降低了计算成本。

2. Winnow分类算法

Winnow算法是一种统计但非概率的算法,它不直接计算类别的概率,而是为每个类别计算一个分数。我们的Winnow变体适用于二分类和多分类任务。

对于每个类别,算法维护一个权重向量,其中第i个特征的权重为。当所有活跃特征的权重之和(即分数)超过预定义的阈值时,算法为该类别返回1,否则返回0。活跃特征是指在待分类实例中存在的特征。

算法的目标是在特征空间中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值