朴素贝叶斯的应用

最新推荐文章于 2025-06-01 01:38:46 发布

原创最新推荐文章于 2025-06-01 01:38:46 发布 · 2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#数据 #class

机器学习同时被 2 个专栏收录

6 篇文章

订阅专栏

机器学习实战

3 篇文章

订阅专栏

本文深入浅出地介绍了朴素贝叶斯算法的基本原理及其应用场景，包括贝叶斯定理的应用、连续属性处理方法、维度分类为零的问题解决方案、多维度拓展及属性不独立情况下的处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

$Nai¨veBayesNa\ddot{i}ve Bayes$

By 浪ふ沏沙

一、贝叶斯定理

设 $X$ 是数据元组。在贝叶斯中， $X$ 看作是“证据”。通常， $X$ 用 $n$ 个属性集的测量值描述。令 $H$ 为某种假设，如数据元组 $X$ 属于某个特定类 $C$ 。对于分类问题，希望确定给定“证据”或观测数据元组 $X$ ，假设 $H$ 成立的概率 $P (H ∣ X)$ 。换言之，给定 $X$ 的属性描述，找出元组 $X$ 属于类 $C$ 的概率。

$P (H ∣ X)$ 是后验概率，或在条件 $X$ 下， $H$ 的后验概率。例如，假设数据元组事件限于分别有属性 $a g e$ 和 $i n c o m e$ 描述的用户，而 $X$ 是一位25岁的小伙子，其收入是 $5000$ 元。令 $H$ 为某种假设，如顾客将购买计算机。则 $P (H ∣ X)$ 反映我们知道顾客的年龄和收入时，顾客 $X$ 将购买计算机的概率。

相反 $P (H)$ 为先验概率。对于我们的例子，他是任意给定客户购买计算机的概率，而不管他们年龄、收入或任何其它信息。后验概率 $P (H ∣ X)$ 比先验概率 $P (H)$ 基于更多的信息。
$P (X ∣ H)$ 是条件 $H$ 下， $X$ 的后验概率，也就是说算的已经购买计算机的用户里性别和收入的概率。

我们通常使用贝叶斯公式进行计算。贝叶斯定理是： $P(H∣X)=P(X∣H)×P(H)P(X)P(H|X)=\frac {P(X|H)\times {P(H)}}{P(X)}$

我们假定数据如下，暂时先设定一个维度性别：

购买与否	男	女	合计
购买	200	80	280
不购买	80	140	220
合计	280	220	500

先确定事件为：设定用户为男性记为事件 $A$ ，购买记为事件 $B$ .
我们期待有这样的数值，新来客户为男性时，他购买的概率是多少？是女性时购买的概率是多少？对等事件我们分别记作 $P(B∣A),P(B∣Aˉ)P(B|A),P(B|\bar{A})$

按照理论，我们通常需要一个先验概率， $P(A∣B),P(Aˉ∣B),P(A∣Bˉ),P(Aˉ∣Bˉ)P(A|B),P(\bar{A}|B),P(A|\bar{B}),P(\bar{A}|\bar{B})$ ,以及 $P (B)$ 的概率。
我们可以用已有的数据计算出先验概率：

购买条件下男性用户的概率 $P (A ∣ B)$ ： $P(A∣B)=200280=57P(A|B)=\frac {200}{280}=\frac{5}{7}$

不购买条件下男性用户的概率 $P(A∣Bˉ)P(A|\bar{B})$ ： $P(A∣Bˉ)=80220=411P(A|\bar{B})=\frac {80}{220}=\frac{4}{11}$

购买条件下女性用户的概率 $P(Aˉ∣B)P(\bar{A}|B)$ ： $P(Aˉ∣B)=80280=27P(\bar{A}|B)=\frac {80}{280}=\frac{2}{7}$

不购买条件下女性用户的概率 $P(Aˉ∣Bˉ)P(\bar{A}|\bar{B})$ ： $P(Aˉ∣Bˉ)=140220=711P(\bar{A}|\bar{B})=\frac {140}{220}=\frac{7}{11}$

购买的概率 $P (B)$ : $P(B)=280500=1425P(B)=\frac{280}{500}=\frac{14}{25}$

有了先验概率之后，我们就可以计算出我们需要的后验概率，也即来了一个男性用户或者女性用户，我们知道他购买的概率。

男性购买的概率： $P(B∣A)=P(AB)P(A)=P(A∣B)×P(B)P(A∣B)+P(A∣Bˉ)=57×142557+411=154415P(B|A)=\frac{P(AB)}{P(A)}=\frac{P(A|B)\times{P(B)}}{P(A|B)+P(A|\bar{B})}=\frac{\frac{5}{7}\times \frac{14}{25}}{\frac{5}{7}+\frac{4}{11}}=\frac{154}{415}$

女性购买的概率： $P(B∣Aˉ)=P(AˉB)P(Aˉ)=P(Aˉ∣B)×P(B)P(Aˉ∣B)+P(Aˉ∣Bˉ)=27×142527+711=3081775P(B|\bar{A})=\frac{P(\bar{A}B)}{P(\bar{A})}=\frac{P(\bar{A}|B)\times{P(B)}}{P(\bar{A}|B)+P(\bar{A}|\bar{B})}=\frac{\frac{2}{7}\times \frac{14}{25}}{\frac{2}{7}+\frac{7}{11}}=\frac{308}{1775}$

二、注意点

1、属性是连续的而不是分类的

在实际生活中，属性中大多会存在连续的，比如鱼的长度，人的年龄，借款的额度，借款的次数等等。贝叶斯为了解决这一问题，我们通常假设这一属性服从正态分布又称高斯分布： $f(x)=12πσe−(x−μ)22σ2f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}$
其中 $μ\mu$ 是属性的期望， $σ2\sigma^2$ 为属性的方差。

属性的期望我们可以用 $E(X)=∑i=0nnipiE(X)=\sum_{i=0}^{n} n_{i}p_{i}$ 来计算。

属性的方差我们可以用 $σ2=∑i=0n(X−Xˉ)2\sigma^2 = \sum_{i=0}^{n}(X-\bar{X})^{2}$

例如我们要计算年龄为25岁小伙子的概率： $P\{X=25\}=P\{X<=25\}-P\{X<=24\}$

根据微积分得到 $f (x)$ 的分布函数 $F(X)=12πσ∫−∞xe−(t−μ)22σ2dtF(X)=\frac{1}{\sqrt{2\pi }\sigma }\int_{-\infty }^{x}e^{-\frac{(t-\mu)^{2} }{2\sigma^2}}dt$ ,由于期望和方差是已知的故而可以算出概率。

2、出现维度分类为0的情况

我们对照上边的实例假设一个这样的情况，假设商品电脑非常潮，而男生都喜欢电脑，所有的男性都买了此电脑，也就是说没有购买的男性的人数是0。
这时会出现一个问题。 $P(A∣Bˉ)=0P(A|\bar{B})=0$ 。
那么我现在再来计算一下 $P(Bˉ∣A)P(\bar{B}|A)$ ,也即来了一个男性用户，我们预测他不购买的概率。

$P(Bˉ∣A)=P(A∣Bˉ)×P(Bˉ)P(A)=0×P(Bˉ)P(A)=0P(\bar{B}|A)=\frac{P(A|\bar{B})\times {P(\bar{B})}}{P(A)}=\frac{0\times {P(\bar{B})}}{P(A)}=0$

显然，这不符合逻辑。为了解决这一问题，拉普拉斯校准应运而生。我们通常选取的样本数量不会太小，否则不具有说服力，在此的基础上，我们对各个维度的每个分类上，给样本量+1，在计算各个维度的分类的时候分母加上维度的分类数。

选取上边的例子，各个维度的样本数都加1，于是我们得到下表：

	男	女	合计
购买	201	81	282
不购买	81	141	222
合计	282	222	504

然后我们就采用校准之后的数据来获取先验概率，即可。

3、多维度的拓展

首先我们要明白这样一个事实，我们在建立模型的时候往往会有不止一两个维度，少则十几个，多则上百。而朴素贝叶斯的要求比较苛刻，我们在建立模型之初就假定各个条件相互独立，所以在解决多维度的时候，我们可以把各个维度之间看成相互独立事件。采用概率论上的独立事件算法。

假定事件 $A$ 和事件 $B$ 相互独立，则有 $P(AB)=P(A)×P(B)P(AB)=P(A)\times P(B)$ 。有了这一公式，我们在解决多维度的时候会方便很多。

$P(ABCDE)=P(A)×P(B)×P(C)×P(D)×P(E)P(ABCDE)=P(A)\times P(B)\times P(C)\times P(D)\times P(E)$
这里的 $A B C D E$ 就可以看成我们模型中的每一个维度，从而来计算出我们的先验概率，以求的后验概率。

4、维度之间不独立

在实际生活中，很难说某两个维度之间是绝对独立，而朴素贝叶斯采取的条件就是假设各个维度独立，这样难免让我们生疑，比方说学历这个维度和收入就存在一定关系，高学历决定高收入不是完全正确，但只至少可以知道这句话说明了这两个维度之间存在必然的关系。那么如何说服众人，证明两个维度之间有无关系呢？
这就需要引入我们的相关分析，对于标称数据我们采用 $χ2\chi ^{2}$ 检验，而对于数值属性我们使用相关系数和协方差，他们都是评估一个属性的值如何随另一个变化。

标称型：一般在有限的数据中取，而且只存在特定的结果[‘类1’，‘类2’，‘类3’]（一般用于分类）

数值型：可以在无限的数据中取，而且数值比较具体化，例如1.001,2.002…这种值（一般用于回归分析）

1)、协方差和相关系数

我们知道方差是反映一个变量波动的大小。对于二维随机变量 $(X, Y)$ ,如果有 $X, Y$ 相互独立，则有 $E\{[X-E(X)][Y-E(Y)]\}=0$ (证法详见概率论方差性质3和切比雪夫不等式。)
这就意味着如果 $X$ 和 $Y$ 不相互独立，而是存在某种关系的时候 $E{[X−E(X)][Y−E(Y)]}≠0E\{[X-E(X)][Y-E(Y)]\}\neq 0$ 。

量 $E\{[X-E(X)][Y-E(Y)]\}$ 称为随机变量 $X$ 与 $Y$ 的协方差。记为 $C o v (X, Y)$ ，即： $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$ ,而 $ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY}=\frac {Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ 称为随机变量 $X$ 与 $Y$ 的相关系数。

我们先来引入两个概念：

1、方差 $E\{[X-E(X)]^{2}\}$ ,表示各个 $X$ 与期望值的差值的平方的累和，通常记为 $D (X)$ , $D(X)\sqrt{D(X)}$ 记作标准差。实在不懂的请参考概率论。

2、 $E (X)$ 记作变量 $X$ 的期望值，计算方法为 $X$ 的各个样本与概率的乘积的累和。

通常我们使用如下公式来计算两个变量的协方差： $C o v (X, Y) = E (X Y) - E (X) E (Y)$ 。而 $E (X Y)$ 我们通常采用二重积分来求， $E (X)$ 和 $E (Y)$ 的算法就比较简单了，这里不在赘述。如果求得协方差不为0则说明 $X, Y$ 是不独立的。同样我们知道了相关系数的算法，也就知道了 $X, Y$ 不相关时，相关系数为0.

这里简要说明一下 $∣ρXY∣<=1|\rho_{XY}|<=1$ ， $∣ρXY∣|\rho_{XY}|$ 越大说明 $X, Y$ 的相关性越高（证法略）。

2)、卡方检验

在讲述卡方检验之前，我们先来引入卡方分布：

设 $X_{1}^{2},X_{1}^{2},...,X_{n}^{2}$ 是来自总体 $N (0 ， 1)$ 的样本，则称统计量 $χ2=X12+X12+...+Xn2\chi^{2} = X_{1}^{2}+X_{1}^{2}+...+X_{n}^{2}$ 是服从自由度为 $n$ 的 $χ2\chi^{2}$ 的分布，记作 $χ2∼χ2(n)\chi^{2}\sim \chi^{2}(n)$ ,( $N$ 表示的是正态分布)。

我们采取我们假设的例子，学历与收入的关系做一张图表，来简述一下实现的过程：

	doctor	graduate	undergraduates	specialty	total
high	150	100	70	40	360
mid	160	170	230	110	670
low	40	50	60	90	240
total	350	320	360	240	1270

对于标称数据，两个属性 $A$ 和 $B$ 之间的相关联系可以通过 $χ2\chi ^2$ （卡方）检验发现。假设A有c个不同值 $a1,a2,…,aca_{1},a_{2},\ldots,a_{c}$ ,B有r个不同值
$b1,b2,…,brb_{1},b_{2},\ldots,b_{r}$ 。用A和B描述的数据元组可以用一个相依表显示，期中A的c个值构成列,B的r个值构成行。令（ $A_{i},B_{j}$ ）表示属
性A取值 $a_{i}$ 、属性B取值 $b_{j}$ 的联合事件，即（ $A=a_{i},B=b_{j}$ ）。每个可能的（ $A_{i},B_{j}$ ）联合事件都在表中有自己的单元。
$χ2\chi ^2$ 值可以用下式计算： $χ2=∑i=1c∑j=1r(oij−eij)2eij\chi ^2=\sum_{i=1}^{c}\sum_{j=1}^{r}\frac{(o_{ij}-e_{ij})^2}{e_{ij}}$
其中， $o_{ij}$ 是联合事件（ $A_{i},B_{j}$ ）的观测频度（即实际计数），而 $e_{ij}$ 是（ $A_{i},B_{j}$ ）的期望频度，
$eij=count(A=aj)×count(B=bj)ne_{ij}=\frac{count(A=a_{j})\times count(B=b_{j})}{n}$
其中，n是数据元组的个数， $count(A=a_{j})$ 是A上具有值 $a_{i}$ 的元组个数，而 $count(B=b_{j})$ 是B上具有值 $b_{j}$ 的元组个数。

$χ2\chi ^2$ 统计检验假设A和B是独立的。检验基于显著水平，具有自由度 $(r−1)×(c−1)(r-1)\times (c-1)$ 。

博士的高收入期望频率： $e11=count(doctor)×count(high)n=350×3601270=99.21e_{11}=\frac {count(doctor)\times count(high)}{n} = \frac {350 \times 360}{1270}=99.21$

博士的中收入期望频率： $e11=count(doctor)×count(mid)n=350×6701270=184.64e_{11}=\frac {count(doctor)\times count(mid)}{n} = \frac {350 \times 670}{1270}=184.64$

博士的低收入期望频率： $e11=count(doctor)×count(low)n=350×2401270=66.14e_{11}=\frac {count(doctor)\times count(low)}{n} = \frac {350 \times 240}{1270}=66.14$

这里就展示这么多，我已经通过excel计算除了一个详细的期望频率列表，如下：

	doctor	graduate	undergraduates	specialty
high	99.21	90.71	102.05	68.03
mid	184.65	168.82	189.92	126.61
low	66.14	60.47	68.03	45.35

单个频率的 $χ2\chi^{2}$ 值如下表：

	doctor	graduate	undergraduates	specialty
high	26.00	0.95	10.06	11.55
mid	3.29	0.01	8.46	2.18
low	10.33	1.81	0.95	43.95

$χ2=(150−99.21)299.21+(160−184.65)2184.65+(40−66.14)266.14+...+(90−45.35)245.35\chi ^2=\frac{(150-99.21)^2}{99.21}+\frac{(160-184.65)^2}{184.65}+\frac{(40-66.14)^2}{66.14}+...+\frac{(90-45.35)^2}{45.35}$