前言:之前在朴素贝叶斯算法这篇文章中,对朴素贝叶斯分类算法的原理做了一个总结。这里我们就从实战的角度来看朴素贝叶斯类库。重点讲述朴素贝叶斯类库的使用要点和参数选择。
这里的实战是利用朴素贝叶斯来进行垃圾邮件的分类
实战部分:
from numpy import *
import codecs,re
from sklearn.naive_bayes import MultinomialNB
#创建一个包含在所有文档中出现的不重复词的列表
def createVocabList(dadaSet):
vocabset = set([])
for document in dadaSet:
vocabset = vocabset | set(document)
return list(vocabset)
def setOfWords2Vec(vocabList, inputSet):
returnVec = [0]*len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)]=1
else:
print("the word:%s is not in my Vocabulary"%word)
return returnVec
def bagOfWords2VecMN(v