一、概述
根据邮件中各单词的出现情况,对邮件进行是否为垃圾邮件的预测。
二、数据
1、样本数量
| 标签 | 垃圾邮件(1类) | 非垃圾邮件(0类) |
| 训练集 | 1046 | 2574 |
| 测试集 | 454 | 1098 |
2、数据说明
| Email No | the | to | … | ect | Prediction |
| Email 1 | 0 |
该博客探讨了使用朴素贝叶斯算法对邮件进行垃圾邮件分类的问题。首先介绍了数据集,包括邮件的特征和标签。接着详细讨论了朴素贝叶斯模型的选择原因和测试效果,以及如何通过TF-IDF改进模型。还引入了欠采样策略以应对数据不平衡,并对比了不同方法在测试集上的表现。最后,指出了模型存在的局限性,即未考虑单词间的联合信息。
一、概述
根据邮件中各单词的出现情况,对邮件进行是否为垃圾邮件的预测。
二、数据
1、样本数量
| 标签 | 垃圾邮件(1类) | 非垃圾邮件(0类) |
| 训练集 | 1046 | 2574 |
| 测试集 | 454 | 1098 |
2、数据说明
| Email No | the | to | … | ect | Prediction |
| Email 1 | 0 |
1万+
4427

被折叠的 条评论
为什么被折叠?