邮件分类模型

最新推荐文章于 2022-12-12 23:30:27 发布

原创

最新推荐文章于 2022-12-12 23:30:27 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#朴素贝叶斯算法 #分类算法

该博客探讨了使用朴素贝叶斯算法对邮件进行垃圾邮件分类的问题。首先介绍了数据集，包括邮件的特征和标签。接着详细讨论了朴素贝叶斯模型的选择原因和测试效果，以及如何通过TF-IDF改进模型。还引入了欠采样策略以应对数据不平衡，并对比了不同方法在测试集上的表现。最后，指出了模型存在的局限性，即未考虑单词间的联合信息。

一、概述

根据邮件中各单词的出现情况，对邮件进行是否为垃圾邮件的预测。

二、数据

1、样本数量

标签	垃圾邮件（1类）	非垃圾邮件（0类）
训练集	1046	2574
测试集	454	1098

2、数据说明

Email No	the	to	…	ect	Prediction
Email 1	0

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。