8、邮件分类器的构建、测试与优化

邮件分类器的构建、测试与优化

1. 训练数据的准备

在构建邮件分类器时,我们需要准备训练数据,包括垃圾邮件(spam)和正常邮件(ham)的训练数据。

1.1 垃圾邮件训练数据

在定义分类器时,使用原始计数数据和后续密度作为训练数据可能会过度加权某些类型的垃圾邮件,比如包含 HTML 表格的垃圾邮件。因此,更好的方法是根据包含某个术语的邮件数量来定义邮件为垃圾邮件的条件概率。

1.2 正常邮件训练数据

为了平衡训练数据,我们使用简单正常邮件(easy ham)来构建正常邮件训练数据。虽然可以将困难正常邮件(hard ham)纳入训练集,但在本次练习中,我们仅使用 data/easy_ham 文件夹中的前 500 封邮件来构建训练数据。这是因为我们假设每封邮件是正常邮件或垃圾邮件的概率相等,而我们只有 500 封垃圾邮件,所以将正常邮件训练集也限制为 500 封邮件。

构建好正常邮件训练数据后,我们可以对其进行检查,例如查看出现频率较高的术语:

head(easyham.df[with(easyham.df, order(-occurrence)),])
       term frequency     density occurrence
3553  yahoo       185 0.008712853      0.180
966    dont       141 0.006640607      0.090
2343 people       183 0.008618660      0.086
187
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值