经典的朴素贝叶斯：从原理到实战，3个案例教你搞定文本分类

最新推荐文章于 2026-01-07 16:38:39 发布

原创最新推荐文章于 2026-01-07 16:38:39 发布 · 410 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #机器学习 #概率论 #人工智能 #数据挖掘

你有没有想过，手机里的垃圾邮件过滤器是怎么精准识别“中奖链接”的？社区论坛的“骂人文本”是怎么被自动屏蔽的？这些常见的文本分类场景，背后很可能藏着一个经典算法——朴素贝叶斯。

它不依赖复杂的模型结构，数据量少也能跑，还能轻松处理多类别问题，堪称“轻量级分类王者”。今天咱们就从原理到实战，用最通俗的话讲透朴素贝叶斯，再通过3个真实案例教你落地。

一、先搞懂基础：贝叶斯定理和条件概率

要学朴素贝叶斯，得先从“贝叶斯定理”说起。而理解贝叶斯定理，又绕不开“条件概率”——就是“在某个前提条件下，事件发生的概率”。

咱们先看个简单例子：

假设有2个桶（A桶、B桶），一共装了7块石头，其中3白4黑。A桶有4块（2白2黑），B桶有3块（1白2黑）。现在问：“从B桶里摸出白石头的概率是多少？”

这就是条件概率，记为 **P(白石头|B桶)**。怎么算？

很直观：B桶里有1块白石头，总共3块石头，所以概率是1/3。但从公式角度，条件概率的计算是这样的：

：“石头是白色且在B桶”的概率——总共7块石头，B桶白石头1块，所以是1/7；
：“石头在B桶”的概率——B桶共3块，所以是3/7；
代入得：(1/7) ÷ (3/7) = 1/3，和直观结果一致。

有了条件概率，贝叶斯定理就好理解了。它的核心是“逆概率”——已知“事件B发生时A的概率”，求“事件A发生时B的概率”。公式长这样：

咱们不用死记公式，记住它的逻辑：用已知的“正向概率”，推导出“反向概率”。比如：
已知“感冒时会发烧”的概率（P(发烧|感冒)），能不能反过来求“发烧时是感冒”的概率（P(感冒|发烧)）？这就是贝叶斯定理要解决的问题。

二、“朴素”在哪？关键假设揭秘

“贝叶斯”好理解，那“朴素”（Naive）是什么意思？答案是两个简化假设——正因为这两个假设，算法才变得“简单”，但也因此得名“朴素”。

假设1：特征之间相互独立

比如在文本分类中，我们把“每个词”当作一个“特征”。这个假设意味着：“我”这个词出现的概率，和“喜欢”这个词是否出现无关；“垃圾”这个词出现，也不影响“邮件”这个词的出现概率。

当然，现实中语言是有上下文的（比如“我喜欢”常一起出现），但这个假设能极大简化计算，而且实战中效果往往不差——这也是朴素贝叶斯的“神奇之处”。

假设2：每个特征同等重要

还是文本分类的例子，“垃圾”和“今天”这两个词，在判断“是否是垃圾邮件”时，权重是一样的。不会因为“垃圾”更有辨识度，就给它更高的权重。

两种常见实现方式

根据特征的处理方式，朴素贝叶斯主要有两种用法：

伯努利模型：只关注“特征是否出现”（比如词在文档里有没有，用0/1表示），不关注出现次数；
多项式模型：关注“特征出现次数”（比如词在文档里出现了3次，就记为3）。

原文中用的是伯努利模型，咱们实战案例也先从这个入手。

三、朴素贝叶斯怎么工作？流程拆解

搞懂了原理和假设，咱们再看朴素贝叶斯的“工作流”——从数据到分类结果，到底经历了哪几步？

1. 核心工作原理（以文本分类为例）

建“词汇表”：把所有训练文档里的词去重，形成一个“字典”（比如所有留言里的词，去重后有32个，词汇表就有32个词）；
转“词向量”：把每篇文档转换成和词汇表等长的向量——词在文档里出现过记1，没出现记0（比如词汇表第3个词是“help”，文档里有“help”，向量对应位置就记1）；
算“先验概率”：每个类别的概率（比如侮辱性留言有3篇，总留言6篇，那侮辱类的先验概率是3/6=0.5）；
算“条件概率”：每个词在某个类别下的概率（比如“stupid”在侮辱类留言里出现了3次，侮辱类总词数是X，那P(stupid|侮辱类)=3/X）；
分类决策：对新文档，计算它属于每个类别的概率，选概率大的类别（比如属于侮辱类的概率0.8，非侮辱类0.2，就判定为侮辱类）。

2. 完整开发流程（通用版）

不管是文本分类还是其他场景，朴素贝叶斯的开发都逃不过这6步：

收集数据：用爬虫爬文本、手动标注类别，或者用公开数据集；
准备数据：把原始数据转成算法能处理的格式（比如文本转词向量，必须是数值/布尔型）；
分析数据：检查数据是否有问题（比如词向量是否正确，有没有遗漏的词），多特征时用直方图看分布；
训练算法：计算每个类别的先验概率、每个特征的条件概率；
测试算法：用测试集算错误率，判断模型好不好用；
使用算法：把模型部署到实际场景（比如论坛言论审核、垃圾邮件过滤）。

四、避坑指南：解决两个关键问题

实战中用朴素贝叶斯，很容易遇到两个“坑”，但只要知道原理，就能轻松解决。

坑1：零概率问题

比如训练集中，“诈骗”这个词只在垃圾邮件里出现，正常邮件里从没出现过。那计算“正常邮件”类别下“诈骗”的条件概率时，就会出现0。一旦有一个概率是0，多个概率相乘后结果也会是0，导致分类出错。

解决办法：给每个词的出现次数“初始化1”，分母“初始化2”（拉普拉斯平滑）。
比如原本词的出现次数是0，初始化后变成1；分母原本是“类别总词数”，现在变成“类别总词数 + 2”。这样就不会出现0概率了。

坑2：下溢出问题

计算多个条件概率相乘时，每个概率都是小于1的小数（比如0.01、0.005），乘多了会变成极小的数（比如1e-30），超出计算机的浮点数精度，导致“下溢出”（结果变成0）。

解决办法：对概率取“自然对数”。
数学上，——乘法变加法，不仅避免了下溢出，还能加快计算。而且对数函数是“单调递增”的，取对数后概率的大小关系不变，不会影响分类结果。

五、实战为王：3个案例手把手教

光说不练假把式，咱们结合原文的3个经典案例，看朴素贝叶斯怎么落地。

案例1：屏蔽社区侮辱性言论

需求：把留言分成“侮辱类（1）”和“非侮辱类（0）”，自动屏蔽侮辱性言论。

步骤1：准备数据

手动构造训练集，6条留言+对应的类别：

def loadDataSet():
    # 留言列表
    postingList = [
        ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],  # 非侮辱
        ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],  # 侮辱
        ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],  # 非侮辱
        ['stop', 'posting', 'stupid', 'worthless', 'garbage'],  # 侮辱
        ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],  # 非侮辱
        ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']  # 侮辱
    ]
    classVec = [0, 1, 0, 1, 0, 1]  # 类别：0=非侮辱，1=侮辱
    return postingList, classVec

步骤2：构建词向量

先创建词汇表（去重），再把每条留言转成词向量：

# 生成词汇表（所有词去重）
def createVocabList(dataSet):
    vocabSet = set([])  # 用集合去重
    for doc in dataSet:
        vocabSet = vocabSet | set(doc)  # 合并集合
    return list(vocabSet)

# 留言转词向量（0=没出现，1=出现）
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 初始化全0向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1  # 词出现则记1
    return returnVec

步骤3：训练模型（优化版，解决零概率和下溢出）

import numpy as np
from math import log

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 训练文档数
    numWords = len(trainMatrix[0])   # 词汇表长度
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 侮辱类先验概率（3/6=0.5）
    
    # 初始化1（避免零概率），分母初始化2
    p0Num = np.ones(numWords)  
    p1Num = np.ones(numWords)
    p0Denom = 2.0  
    p1Denom = 2.0
    
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  # 侮辱类文档
            p1Num += trainMatrix[i]  # 累加词出现次数
            p1Denom += sum(trainMatrix[i])  # 累加总词数
        else:  # 非侮辱类
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    
    # 取对数（避免下溢出），计算每个词的条件概率
    p1Vect = log(p1Num / p1Denom)  # 侮辱类：log(P(词|侮辱))
    p0Vect = log(p0Num / p0Denom)  # 非侮辱类：log(P(词|非侮辱))
    return p0Vect, p1Vect, pAbusive

步骤4：测试分类

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    # 计算属于每个类别的概率（对数加法）
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)  # 侮辱类概率
    p0 = sum(vec2Classify * p0Vec) + log(1 - pClass1)  # 非侮辱类概率
    return 1 if p1 > p0 else 0

# 测试函数
def testingNB():
    listOPosts, listClasses = loadDataSet()  # 加载数据
    myVocabList = createVocabList(listOPosts)  # 建词汇表
    # 转训练矩阵
    trainMat = [setOfWords2Vec(myVocabList, doc) for doc in listOPosts]
    p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))  # 训练
    
    # 测试1：非侮辱性留言
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(f"{testEntry} -> 分类结果：{classifyNB(thisDoc, p0V, p1V, pAb)}（0=非侮辱，1=侮辱）")
    
    # 测试2：侮辱性留言
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(f"{testEntry} -> 分类结果：{classifyNB(thisDoc, p0V, p1V, pAb)}（0=非侮辱，1=侮辱）")

# 运行测试
testingNB()

输出结果：

['love', 'my', 'dalmation'] -> 分类结果：0（0=非侮辱，1=侮辱）
['stupid', 'garbage'] -> 分类结果：1（0=非侮辱，1=侮辱）

完全正确！

案例2：垃圾邮件过滤

需求：自动区分“垃圾邮件（1）”和“正常邮件（0）”，核心是“文本解析”和“交叉验证”。

和案例1的区别在于：

数据来源：从文本文件读取邮件内容（比如25封垃圾邮件、25封正常邮件）；
文本解析：用正则表达式切分文本，去掉短词（比如长度<2的“a”“is”），统一转小写；
交叉验证：随机选10封邮件当测试集，40封当训练集，计算错误率。

核心代码（文本解析+交叉验证）：

import re
import random

# 文本解析：切分句子，去短词，转小写
def textParse(bigString):
    listOfTokens = re.split(r'\W*', bigString)  # 非字母/数字分割
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

# 垃圾邮件测试（交叉验证）
def spamTest():
    docList = []; classList = []; fullText = []
    # 加载25封垃圾邮件（1）和25封正常邮件（0）
    for i in range(1, 26):
        # 加载垃圾邮件
        wordList = textParse(open('data/email/spam/%d.txt' % i).read())
        docList.append(wordList); classList.append(1); fullText.extend(wordList)
        # 加载正常邮件
        wordList = textParse(open('data/email/ham/%d.txt' % i).read())
        docList.append(wordList); classList.append(0); fullText.extend(wordList)
    
    vocabList = createVocabList(docList)  # 建词汇表
    trainingSet = list(range(50)); testSet = []
    # 随机选10个当测试集（交叉验证）
    for i in range(10):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    
    # 训练模型
    trainMat = [setOfWords2Vec(vocabList, docList[i]) for i in trainingSet]
    trainClasses = [classList[i] for i in trainingSet]
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    
    # 测试计算错误率
    errorCount = 0
    for docIndex in testSet:
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print(f"错误数：{errorCount}，测试集长度：{len(testSet)}，错误率：{errorCount/len(testSet)}")

运行结果：错误率通常在10%以内，调整文本处理逻辑（比如去掉停用词）后，错误率还能降低。

案例3：从个人广告看区域倾向

需求：分析纽约和旧金山的个人广告用词差异，比如纽约人更常提“meet”，旧金山人更常提“how”。

核心差异点：

数据来源：从Craigslist的RSS源爬取两个城市的广告内容；
词袋模型：不再只关注“词是否出现”，而是关注“词出现次数”（比如“coffee”出现3次记为3）；
高频词去除：去掉“the”“and”这类停用词（出现次数前30的词），避免干扰分类。

核心代码（词袋模型+高频词去除）：

# 词袋模型：统计词出现次数（不是0/1）
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1  # 出现次数累加
    return returnVec

# 计算高频词（前30）
def calcMostFreq(vocabList, fullText):
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    # 按频次降序排序
    sortedFreq = sorted(freqDict.items(), key=lambda x: x[1], reverse=True)
    return sortedFreq[:30]

# 区域倾向分析
def localWords(feed1, feed0):  # feed1=纽约RSS，feed0=旧金山RSS
    import feedparser
    docList = []; classList = []; fullText = []
    minLen = min(len(feed1['entries']), len(feed0['entries']))
    
    # 加载两个城市的广告数据
    for i in range(minLen):
        # 纽约广告（类别1）
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList); fullText.extend(wordList); classList.append(1)
        # 旧金山广告（类别0）
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList); fullText.extend(wordList); classList.append(0)
    
    vocabList = createVocabList(docList)
    top30Words = calcMostFreq(vocabList, fullText)
    # 去掉高频词（停用词）
    for pairW in top30Words:
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])
    
    # 交叉验证训练+测试
    trainingSet = list(range(2*minLen)); testSet = []
    for i in range(20):
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    
    trainMat = [bagOfWords2VecMN(vocabList, docList[i]) for i in trainingSet]
    trainClasses = [classList[i] for i in trainingSet]
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    
    # 计算错误率
    errorCount = 0
    for docIndex in testSet:
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print(f"错误率：{errorCount/len(testSet)}")
    return vocabList, p0V, p1V

# 加载RSS源并运行
import feedparser
ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')  # 纽约
sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')    # 旧金山
vocabList, pSF, pNY = localWords(ny, sf)

运行结果：能看到两个城市的特征词差异，比如纽约广告常出现“someone”“meet”，旧金山常出现“how”“last”，符合区域用词习惯。