垃圾邮件检测
1. 数据集以及处理
https://pan.baidu.com/s/1i4HaYTB#list/path=%2F
对文件进行merge(Merge.py), 而且由于会出现很多重复行,用uniq 进行去重。
16207 ham_new.txt
4702 spam_new.txt
20909 total
这边没有进一步对进行正负样本进行调整,一方面虽然去重复,spam还有有很多相似的query,过采样明显不合适。欠采样会丢失数据。这里用了代价敏感方法。不过最后效果不明显。
2. 建模
TF-IDF
3. 分类器
LR
SVM
RandomForest
4. 结果
/Users/aprilkuo/anaconda2/bin/python2.7 /Users/aprilkuo/Pychar