1. 实验要求:
对垃圾邮件分类算法(书上P66)改进:
1、采用词袋模型
2、随机选择15个测试样本
3、去除长度小于3的字符
2. 垃圾邮件分类算法改进点
defbagOfWords2VecMN(vocabList, inputSet):
returnVec = [0]*len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] += 1
return returnVec
deftextParse(bigString): #input is bigstring, #output is word list
import re
listOfTokens = re.split(r'\W*', bigString)
return [tok.lower() for tok in listOfTokensif len(tok) > 3]
def spamTest():
&n

该博客介绍了一个基于Python的垃圾邮件分类系统,利用改进的词袋模型(Bag of Words)对邮件进行预处理和特征提取。通过创建词汇表、训练数据集和测试数据集,使用训练的Naive Bayes分类器对邮件进行分类,并展示了测试结果及错误率。
最低0.47元/天 解锁文章
5932

被折叠的 条评论
为什么被折叠?



