理解朴素贝叶斯算法：原理、步骤与实战-优快云博客

本文链接：https://blog.youkuaiyun.com/AI_BigData_wh/article/details/78013300

本文介绍了朴素贝叶斯分类算法的基本原理，通过详细步骤阐述了如何利用贝叶斯定理进行分类，并通过一个数据样本实例展示了分类过程。同时，讨论了算法的优缺点，包括对数据独立性的假设以及解决‘零条件概率问题’的策略。最后，提到了在Python中应用朴素贝叶斯的实际操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贝叶斯(Thomas Bayes) ，英国数学家。约1701年出生于伦敦，做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论，他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对统计决策函数、统计推断、统计的估算等做出了卓越的贡献。学过概率论的同学一定对贝叶斯耳熟能详，并且被其创造的贝叶斯定理深深折服。尽管书本上是以数学公式对外展现，并搭配详尽的理论证明，但其原理毋需数字也可明了：如果你看到一个人总是做一些好事，则那个人多半会是一个好人。这就是说，当你不能准确知悉一个事物的本质时，你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是：支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。

贝叶斯定理特别好用，但并不复杂，它解决了生活中经常碰到的问题：已知某条件下的概率，如何得到两条件交换后的概率。贝叶斯分类法基于贝叶斯定理，是统计学分类方法，它可以基于当前条件预测样本的类隶属关系概率，如一个给定元组属于一个特定类的概率。朴素贝叶斯分类法假定一个属性值在给定类上的概率独立于其他属性的值，这一假定称为类条件独立性。

一、基本原理

设 $\textbf{x}$ 是类标号未知的数据样本。对于分类问题，如数据样本 $\textbf{x}$ 属于某特定的类 $C$ 。我们希望确定 $P(C|\textbf{x})$ ，即给定观测数据样本 $\textbf{x}$ ，假定 $\textbf{x}$ 属于某特定的类 $C$ 成立的概率。贝叶斯定理给出了如下计算 $P(C|\textbf{x})$ 的简单有效的方法:

P (C | x) = P ( x | C ) P ( C ) P ( x ) .

$P(C|\textbf{x})=\frac{P(\textbf{x}|C)P(C)}{P(\textbf{x})}.$

$P(C)$ 是先验概率，或称 $C$ 的先验概率。 $P(\textbf{x}|C)$ 代表在类别 $C$ 中观察到 $\textbf{x}$ 的概率。 $P(C|\textbf{x})$ 是后验概率，或称条件 $\textbf{x}$ 下 $C$ 的后验概率。例如数据样本域由水果组成，用它们的颜色和形状来描述。假定 $\textbf{x}$ 表示红色和圆的，如果 $\textbf{x}$ 是苹果，则 $P(C|\textbf{x})$ 反映当我们看到 $\textbf{x}$ 是红色并是圆的时，我们对 $\textbf{x}$ 是苹果的确信程度。此确定度大于我们将 $\textbf{x}$ 判定为梨、西瓜、火龙果等的可能。贝叶斯分类器对两种数据具有较好的分类效果：一种是完全独立的数据，另一种是函数依赖的数据。

二、算法步骤

接下来详细介绍一下朴素贝叶斯分类的工作过程，具体如下所示：
1. 每个数据样本用一个 $n$ 维特征向量 $\textbf{x}= \{x_1，x_2，……，x_n\}$ 表示，分别描述对 $n$ 个属性 $A_1$ ， $A_2$ ，……， $A_n$ 样本的 $n$ 个度量。
2. 假定有 $m$ 个类 $C_1$ ， $C_2$ ，…， $C_m$ ，给定一个未知的数据样本 $\textbf{x}^{'}$ （即没有类标号），计算样本 $\textbf{x}^{'}$ 属于类 $C_i$ 的后验概率。根据贝叶斯定理

P (C i | x') = P ( x ' | C i ) P ( C i ) P ( x ' ), i = 1, 2, \dots, m .

$P(C_i|\textbf{x}^{'})=\frac{P(\textbf{x}^{'}|C_i)P(C_i)}{P(\textbf{x}^{'})},i=1,2,\ldots,m.$
3. 由于

P(x′) $P(\textbf{x}^{'})$ 只与数据的分布有关，对于所有类均为常数，因此可以不考虑，只需要

P(x′|Ci)P(Ci) $P(\textbf{x}^{'}|C_i)P(C_i)$ 最大即可。如果

Ci $C_i$ 类的先验概率未知，则通常假定这些类是等概率的，即

P(C1)=P(C2)=…=P(Cm) $P(C_1)=P(C_2)=…=P(C_m)$ ，因此问题就转换为对

P(x′|Ci) $P(\textbf{x}^{'}|C_i)$ 的最大化（

P(x′|Ci) $P(\textbf{x}^{'}|C_i)$ 常被称为给定

Ci $C_i$ 时数据

x′ $\textbf{x}^{'}$ 的似然度，而使

P(x′|Ci) $P(\textbf{x}^{'}|C_i)$ 最大的假设

Ci $C_i$ 称为最大似然假设）。否则需要最大化

P(x′|Ci)P(Ci) $P(\textbf{x}^{'}|C_i)P(C_i)$ ，此时类的先验概率可以用

P(Ci)=si/s $P(C_i)=s_i/s$ 计算，其中

si $s_i$ 是类

Ci $C_i$ 中的训练样本数，而

s $s$ 是训练样本总数。
4. 给定具有许多属性的数据集，计算

P(x′|Ci) $P(\textbf{x}^{'}|C_i)$ 的开销可能非常大。为降低计算

P(x′|Ci) $P(\textbf{x}^{'}|C_i)$ 的开销，可以做类条件独立的朴素假定：给定样本的类标号，假定属性值相互条件独立，即在属性间，不存在依赖关系。这样

P (x' | C i) = \prod k = 1 n P (x' k | C i) .

$P(\textbf{x}^{'}|C_i)=\prod^{n}_{k=1} P(x^{'}_{k}|C_i).$
其中概率

P(x′1|Ci) $P(x^{'}_{1}|C_i)$ ，

P(x′2|Ci) $P(x^{'}_{2}|C_i)$ ，……，

P(x′n|Ci) $P(x^{'}_{n}|C_i)$ 可以由训练样本估值。
如果

Ak $A_k$ 是离散属性，则

P(x′k|Ci)=sik/si $P(x^{'}_{k}|C_i)=s_{ik}/s_i$ ，其中

sik $s_{ik}$ 是在属性

Ak $A_k$ 上具有值

x′k $x^{'}_{k}$ 的类

Ci $C_i$ 的训练样本数，而

si $s_i$ 是

Ci $C_i$ 中的训练样本数。如果

Ak $A_k$ 是连续值属性，则通常假定该属性服从高斯分布。因而，

P (x' k | C i) = g (x' k, μ i, σ i) = 1 2 π ‾ ‾ ‾ \sqrt σ i e - ( x ' k - μ i ) 2 2 σ 2 i .

$P(x^{'}_{k}|C_i)=g(x^{'}_{k},\mu_{i},\sigma_{i})=\frac{1}{\sqrt{2\pi }\sigma_{i}}e^{-\frac{(x^{'}_{k}-\mu_{i})^{2}}{2\sigma^{2}_{i}}}.$
其中

g(x′k,μi,σi) $g(x^{'}_{k},\mu_{i},\sigma_{i})$ 是高斯分布函数，

μi $\mu_{i}$ 、

σi $\sigma_{i}$ 分别是类

Ci $C_i$ 样本的平均值和标准差。
5. 对未知样本

x′ $\textbf{x}^{'}$ 分类，也就是对每个类

Ci $C_i$ ，计算

P(x′|Ci)∗P(Ci) $P(\textbf{x}^{'}|C_i)*P(C_i)$ 。样本

x′ $\textbf{x}^{'}$ 被指派到类

Ci $C_i$ ，当且仅当

P(Ci|x′)>P(Cj|x′) $P(C_i|\textbf{x}^{'})> P(C_j|\textbf{x}^{'})$ ，

1≤j≤m $1\leq j\leq m$ ，

j≠i $j\neq i$ ，换言之，

x′ $\textbf{x}^{'}$ 被指派到其

P(x′|Ci)∗P(Ci) $P(\textbf{x}^{'}|C_i)*P(C_i)$ 最大的类。

三、算法举例

数据样本用属性age，income，student和credit_rating描述。类标号属性buys_computer具有两个不同值（即{yes，no}）。设 $C_1$ 对应于类buys_computer=”yes”，而 $C_2$ 对应于类buys_computer=”no”。我们希望分类的未知样本为： $\textbf{x}^{'}$ =（age=”<=30”，income=”medium”，student=”yes”，credit_rating=”fair”）。

age	income	studen	credit_rating	buy_computer
<=30	High	No	Fair	No
<=30	High	No	Excellent	No
31~40	High	No	Fair	Yes
$>$ 40	Medium	No	Fair	Yes
$>$ 40	Low	Yes	Fair	Yes
$>$ 40	Low	Yes	Excellent	No
31~40	Low	Yes	Excellent	Yes
<=30	Medium	No	Fair	No
<=30	Low	Yes	Fair	Yes
$>$ 40	Medium	Yes	Fair	Yes
<=30	Medium	Yes	Excellent	Yes
31~40	Medium	No	Excellent	Yes
31~40	High	Yes	Fair	Yes
$>$ 40	Medium	No	Excellent	No

(1) 为了正确分类样本 $\textbf{x}^{'}$ =（age=”<=30”，income=”medium”，student=”yes”，credit_rating=”fair”），需要最大化 $P(\textbf{x}^{'}|C_i)*P(C_i)$ ， $i=1，2$ 。每个类的先验概率 $P(C_i)$ 可以根据训练样本计算：
P(buys_computer=”yes”)=9/14=0.643，
P(buys_computer=”no”)=5/14=0.357。

(2) 为得到 $P(\textbf{x}^{'}|C_i)$ ， $i=1，2$ ，需计算下面的条件概率：
P(age<=30|buys_computer=”yes”)=2/9=0.222，
P(age<=30|buys_computer=”no”)=3/5=0.600，
P(income=”medium”|buys_computer=”yes”)=4/9=0.444，
P(income=”medium”|buys_computer=”no”)=2/5=0.400，
P(student=”yes”|buys_computer=”yes” )=6/9=0.677,
P(student=”yes”|buys_computer=”no”)=1/5=0.200，
P(credit_rating=”fair”|buys_computer=”yes”)=6/9=0.667，
P(credit_rating=”fair”|buys_computer=”no”)=2/5=0.400。

(3) 假设条件独立性，使用以上概率，我们得到：
P( $\textbf{x}^{'}$ |buys_computer=”yes” )=0.222*0.444*0.667*0.667=0.044，
P( $\textbf{x}^{'}$ |buys_computer=”no”)=0.600*0.400*0.200*0.400=0.019，
P( $\textbf{x}^{'}$ |buys_computer=”yes” )*P(buys_computer=”yes” )= 0.044*0.643=0.028
P( $\textbf{x}^{'}$ |buys_computer=”no” )*P(buys_computer=”no” )=0.019*0.357=0.007。
因此，对于样本 $\textbf{x}^{'}$ ，朴素贝叶斯分类预测buys_computer=”yes”。

四、算法的优缺点

1. 优点：算法基于贝叶斯法则，相对容易构建和理解。并且判断效率较快，能比许多其他分类算法更快地预测类。对于相互独立假设不成立的训练样本集，一般也有较好的效果。使用小数据集也可以容易地训练数据。

2. 缺点：偶尔会遇见”零条件概率问题”：如果给定没有出现过的类和特征，则该类别的条件概率估计将出现为0。这会影响到后验概率的计算结果，使分类产生偏差。有几个样本校正技术可以解决这个问题，如“拉普拉斯校正”。另外是它的特征之间独立的假设非常强，在现实生活中几乎不可能找到这样的数据集。

五、算法实战-Python语言

# -*- coding: utf-8 -*-

from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

iris = datasets.load_iris()
X = iris.data
y = iris.target
# 为了看模型在没有见过数据集上的表现，随机拿出数据集中30%的部分做测试
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

gnb = GaussianNB().fit(X_train, y_train)
y_pred = gnb.predict(X_test)
print "Number of mislabeled points out of a total %d points : %d" % (X_test.shape[0],(y_test != y_pred).sum())
print confusion_matrix(y_test,y_pred)

newx = [[4.5,3.0,2.0,3.6]]
newy_pred = gnb.predict(newx)
print "The predictive output of newx is %d." % newy_pred

这里写图片描述

参考资料

http://blog.youkuaiyun.com/szuodao/article/details/51743501#朴素贝叶斯nb的优点不同分类算法的优缺点是什么？
https://baike.baidu.com/item/贝叶斯公式/9683982 贝叶斯公式
算法步骤及案例参考一份PPT，因时间久远，无法确定链接。在此对作者表示感谢。