垃圾邮件过滤学习方法全解析
在当今数字化的时代,垃圾邮件泛滥成灾,严重影响了人们的工作和生活效率。为了有效过滤垃圾邮件,各种机器学习算法和数据集应运而生。本文将详细介绍一些公开可用的垃圾邮件数据集以及相关的学习算法。
公开基准垃圾邮件语料库
创建垃圾邮件语料库并非易事,由于隐私原因,收集合法电子邮件消息较为困难。而且,混合不同来源的垃圾邮件和合法邮件可能导致分类器训练出现偏差。不过,目前已有不少公开的垃圾邮件语料库,以下是一些常见的语料库介绍:
- Spambase :通过UCI机器学习库以预处理形式提供。该数据库由惠普实验室于1999年6 - 7月创建,包含4601个合法和垃圾邮件实例,其中垃圾邮件占39.4%。每个实例由58维向量表示,前57个是预选择的属性,最后一个是类别标签。属性包括关键词频率、特殊字符频率和连续大写字母序列长度等。由于原始邮件内容不可用,该数据集比其他数据集限制更多。
- ECML - PKDD 2006 :从特定网址获取的预处理数据集。每个消息由词频向量描述,预处理时出现少于4次的词会被移除,并且词进行了编码以保护隐私。
- PU1 :由Androutsopoulos等人创建,包含1099条消息,其中481条为垃圾邮件,618条为合法邮件,垃圾邮件比例为43.77%。语料库经过预处理,移除了所有头部字段和HTML标签,仅保留主题行和正文,消息转换为小写,非字母字符串替换为单个空格,每个标记映射为唯一整数以保护隐私,有四种版本。
- PU2、PU3和PUA :与PU1收集和处理方式相似
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



