中文垃圾邮件检测

该博客介绍了中文垃圾邮件的检测过程,包括数据集处理(去除重复行)、使用TF-IDF进行特征提取,以及应用LR、SVM、RandomForest等分类器。尽管正负样本不平衡,模型仍取得良好效果,作者提出可能通过异常检测来优化问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

垃圾邮件检测

github_repositories

1. 数据集以及处理

https://pan.baidu.com/s/1i4HaYTB#list/path=%2F

对文件进行merge(Merge.py), 而且由于会出现很多重复行,用uniq 进行去重。

   16207 ham_new.txt
    4702 spam_new.txt
   20909 total

这边没有进一步对进行正负样本进行调整,一方面虽然去重复,spam还有有很多相似的query,过采样明显不合适。欠采样会丢失数据。这里用了代价敏感方法。不过最后效果不明显。

2. 建模

TF-IDF

3. 分类器

LR

SVM

RandomForest

4. 结果

/Users/aprilkuo/anaconda2/bin/python2.7 /Users/aprilkuo/Pychar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值