朴素贝叶斯分类

最新推荐文章于 2025-05-28 11:02:20 发布

jlcfighting

最新推荐文章于 2025-05-28 11:02:20 发布

阅读量213

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_39117858/article/details/104898495

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了朴素贝叶斯分类算法的原理与应用，包括贝叶斯定理、后验概率、分类决策过程及算法优缺点。通过实例解析，帮助读者理解如何基于贝叶斯定理进行分类预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贝叶斯分类算法，是一类以贝叶斯定理为基础的分类算法，因为有非常扎实的数学理论基础，所以分类效果非常不错而且计算的开销也比较低。算法的难点是需要足够大的数据集以及如何表示概率，基于纯概率的一个算法

一、分类问题

最简单的分类问题，采用西瓜书的例子。你去选瓜的话，会根据瓜的各种特征（纹路，颜色，瓜蒂是否卷曲，拍打声。。。）来判断这个瓜是否成熟。基于的原理是我们的经验，每次我都买这样的瓜都是熟的。朴素贝叶斯也是这样的原理。
利用数学进行描述，已知集合C={y1,y2,…,yn}和I={X1,X2,…Xm}。其中每个X是一个样本，里面有含有不同的特征{x1,x2,…,xt}。我们希望找到一个映射y=f(X)。这个f其实就是我们的经验。

二、贝叶斯决策

2.1 后验概率

P{H0|x}是给定观测值x条件下H0出现的概率,统称为后验概率。学过概率论的对于这种形式知道这个是条件概率。

2.2 贝叶斯定理

贝叶斯分类的基础就是贝叶斯定理。
条件概率定义：
事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P（A|B），读作“在B条件下A发生的概率”。
在这里插入图片描述
所以可以很简单的知道
$P\left( A|B \right) \,\,=\,\,P\left( A\cap B \right) /P\left( B \right)$
所以可以得到以下公式
$P\left( B|A \right) \cdot P\left( A \right) \,\,=\,\,P\left( A\cap B \right) \,\,=\,\,P\left( A|B \right) \cdot P\left( B \right)$
则可以得到贝叶斯定理
$P\left( B|A \right) \,\,=\,\,\frac{P\left( A|B \right) \cdot P\left( B \right)}{P\left( A \right)}$

朴素贝叶斯分类

朴素贝叶斯就是将贝叶斯算法应用到分类之中。

（1）x=(x1,x2,…xD)表示含有D维属性的数据对象。训练集S含有K个类别，表示为y=(y1,y2,…yK)。

（2）已知待分类数据对象xx，预测xx所属类别，计算方式如下：
$y_k\,\,=\,\,\underset{y_k\in y}{arg\,\,\max}\left( P\left( y_k|\text{x} \right) \right)$

所得yk即为x所属类别。上式表示，已知待分类数据对象x的情况下，分别计算x属于y1、y2、…、yK的概率，选取其中概率的最大值，此时所对应的yk，即为x所属类别。

（3）根据贝叶斯定理，P(yk|x)计算方式如下：
$P\left( y_k|\text{x} \right) \,\,=\,\,\frac{P\left( \text{x}|y_k \right) \cdot P\left( y_k \right)}{P\left( \text{x} \right)}$

计算过程中，P(x)对于P(yk|x)，相当于常数。因此，若想得到P(yk|x)最大值，只需计算P(x|yk)P(yk)最大值。如果类别的先验概率未知，即P(yk)未知，则通常假定这些类别是等概率的，即P(y1)=P(y2)=…=P(yK)。

（4）假设数据对象xx的各属性之间相互独立，P(x|yk)计算方式如下：
$P\left( \text{x}|y_k \right) \,\,=\,\,\prod_{d=1}^D{P\left( x_d|y_k \right)}$

（5）P(xd|yk)的计算方式如下：
如果属性Ad是离散属性或分类属性。训练集中属于类别ykyk的数据对象，在属性AdAd下的相异属性值共有n个；训练集中属于类别yk，且在属性Ad下的属性值为xdxd的数据对象共有m个。因此，P(xd|yk)计算方式如下：
$P\left( x_d|y_k \right) \,\,=\,\,\frac{m}{n}$

如果属性AdAd是连续属性。通常假设连续属性均服从均值为μμ、标准差为σσ的高斯分布，即
$G\left( x \right) =\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left( x-\mu \right) ^2}{2\sigma ^2}}$
因此，P(xd|yk)P(xd|yk)计算方式如下：
$P\left( x_d|y_k \right) =G\left( x_d,\mu _{y_k},\sigma _{y_k} \right)$
其中，μykμyk、σykσyk表示训练集中属于类别ykyk的数据对象在属性AdAd下的均值和标准差。