机器学习算法【7】--朴素贝叶斯实战

且行且安~

已于 2022-05-19 22:14:53 修改

阅读量887

点赞数

分类专栏：机器学习进阶之路文章标签：机器学习算法朴素贝叶斯实战

于 2018-09-06 19:58:30 首次发布

本文链接：https://blog.youkuaiyun.com/qq_20412595/article/details/82467042

版权

机器学习进阶之路专栏收录该内容

37 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文从实战角度探讨朴素贝叶斯算法，通过使用朴素贝叶斯进行垃圾邮件分类，展示类库的使用和参数选择。程序运行结果显示错误率为0.0。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：之前在朴素贝叶斯算法这篇文章中，对朴素贝叶斯分类算法的原理做了一个总结。这里我们就从实战的角度来看朴素贝叶斯类库。重点讲述朴素贝叶斯类库的使用要点和参数选择。

这里的实战是利用朴素贝叶斯来进行垃圾邮件的分类

实战部分：

from numpy import *
import codecs,re
from sklearn.naive_bayes import MultinomialNB

#创建一个包含在所有文档中出现的不重复词的列表
def createVocabList(dadaSet):
    vocabset = set([])
    for document in dadaSet:
        vocabset = vocabset | set(document)
    return list(vocabset)

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else:
            print("the word:%s is not in my Vocabulary"%word)
    return returnVec

def bagOfWords2VecMN(v

了解本专栏