基于聚类集成的垃圾邮件过滤
1. 引言
如今,电子邮件系统面临的主要问题之一是垃圾邮件的管理。垃圾邮件通常是为了吸引潜在客户使用电子商务系统购买商品或服务,甚至是为了获取个人信息用于犯罪活动而发送的。为了帮助用户处理这些不需要的电子邮件,几乎所有现代电子邮件服务都包含了垃圾邮件过滤服务。
理想情况下,这种过滤服务应能自动区分垃圾邮件和正常邮件,仅向最终用户呈现所需的邮件,使用户无需自行分类和删除不需要的邮件。然而,预先判断哪些邮件对最终用户有价值是一项复杂的任务,因此这些系统必须依赖预定义的配置,并根据用户的日常使用习惯进行调整。在这种情况下,自动学习算法可以发挥很大的作用,因为它可以在用户不知情的情况下进行训练,以执行分类任务。
处理垃圾邮件过滤问题有多种方法。根据过滤系统分析电子邮件的部分不同,解决方案可分为基于邮件头或元信息的方法和基于内容的方法。根据系统架构,大致可分为个人系统和协作系统。通常,现代垃圾邮件过滤系统会尝试结合这些技术,以充分利用每种技术的优势。
本文介绍了一种新颖的混合智能系统,它结合了无监督学习和监督学习,可以轻松应用于个人或协作系统。该系统使用自组织映射(Self-Organizing Map,SOM)进行数据的初始划分,并使用朴素贝叶斯进行最终的电子邮件分类。
2. 集成学习
集成元算法最初是为了提高现有数据分类模型的能力而创建的。集成学习模型的核心概念是一群专家共同合作解决问题。
集成元算法的优势在于它能够在小方差和小偏差的期望结果之间取得平衡,避免过度拟合数据(高方差)或完全不考虑数据(高偏差)。一个重要的因素是分类器的有效组合,这部分依赖于集成组件中存在的一定差
超级会员免费看
订阅专栏 解锁全文
1065

被折叠的 条评论
为什么被折叠?



