机器学习-朴素贝叶斯分类

最新推荐文章于 2025-04-13 17:53:55 发布

wuguanfengyue-

最新推荐文章于 2025-04-13 17:53:55 发布

阅读量2.2k

点赞数 1

文章标签：分类 python

本文链接：https://blog.youkuaiyun.com/qq_52233007/article/details/128099367

版权

朴素贝叶斯垃圾邮件条件概率先验概率算法实现

关键词由优快云通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、朴素贝叶斯模型
二、垃圾邮件分类
三、总结

前言

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、朴素贝叶斯模型

1.条件概率

在这里插入图片描述

2.先验概率

在这里插入图片描述

3.后验概率

在这里插入图片描述

4.朴素贝叶斯公式

在这里插入图片描述

5.朴素贝叶斯分类器

朴素贝叶斯分类器(Naïve Bayes Classifier)采用了“属性条件独立性假设” ，即每个属性独立地对分类结果发生影响。为方便公式标记，不妨记P(C=c|X=x)为P(c|x)，基于属性条件独立性假设，贝叶斯公式可重写为：

在这里插入图片描述
其中d为属性数目，x_i 为 x 在第 i 个属性上的取值。

令 D_c 表示训练集D中第c类样本组合的集合，则类先验概率 :
在这里插入图片描述

二、垃圾邮件分类

1.数据集准备

在这里插入图片描述

2.朴素贝叶斯算法

from numpy import *
 
# 创建不重复词的列表 ———— 词汇表
def createVocabList(dataSet):
    vocabSet = set([])                       # 创建一个空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 创建两个集合的并集
    return list(vocabSet)                    # 返回不重复的词条列表
 
# 输出文档向量
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)             # 创建一个其中所含元素都为0的向量
    for word in inputSet:                        # 遍历文档中的所有单词
        if word in vocabList:                    # 如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1
            returnVec[vocabList.index(word)] = 1
        else:
            print("单词 %s 不在词汇表中!" % word)
    return returnVec
 
# 朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)                      # 获得训练的文档总数
    numWords = len(trainMatrix[0])                       # 获得每篇文档的词总数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 计算文档是侮辱类的概率
    p0Num = ones(numWords)                               # 创建numpy.ones数组，初始化概率
    p1Num = ones(numWords)                               # 创建numpy.ones数组，初始化概率
    p0Denom = 2.0