统计学习方法(4)——贝叶斯分类算法

最新推荐文章于 2025-06-02 08:30:00 发布

原创最新推荐文章于 2025-06-02 08:30:00 发布 · 779 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍了朴素贝叶斯算法的原理与应用。通过对比直接使用贝叶斯定理和引入独立性假设的情况，展示了朴素贝叶斯算法如何简化参数估计，提高学习效率。

朴素贝叶斯算法实现简单，学习和预测的效率均很高，是一种非常常用的方法。

1 贝叶斯算法

贝叶斯算法指通过学习数据的先验概率 $P(Y)$ 和类条件概率 $P(X=x|Y=c_k)$ 分布，通过贝叶斯定理计算出后验概率 $P(Y=c_k|X=x)$ 。因为在实际中，我们往往比较容易得到前两者，通过(1)式我们便可以得到我们实际希望得到的样本在满足x的条件下，属于 $c_k$ 这个类别的后验概率的大小.

P (Y | X) = P ( X , Y ) P ( X ) = P ( X | Y ) P ( Y ) \sum Y P ( Y ) P ( X | Y )

$P(Y|X) = \frac{{P(X,Y)}}{{P(X)}} = \frac{{P(X|Y)P(Y)}}{{\sum\limits_Y {P(Y)P(X|Y)} }}$ (1)
贝叶斯定理的推导非常简单，可以直接利用类条件概率推得。

P (Y | X) = P ( X , Y ) P ( X )

$P(Y|X) = \frac{{P(X,Y)}}{{P(X)}}$ (2)

P (X | Y) = P ( X , Y ) P ( Y )

$P(X|Y) = \frac{{P(X,Y)}}{{P(Y)}}$ (3)
从以上(2,3)两式，我们便可以得到(1)式

2 朴素贝叶斯算法

假设我们的输入空间 $\chi \subseteq {R^n}$ 为n维向量的集和，那么我们的条件概率可以写作：

P (X = x | Y = c k) = P (X (1) = x (1), X (2) = x (2), . . ., X (n) = x (n)), k = 1, 2..., K

$P(X = x|Y = {c_k}) = P({X^{(1)}} = {x^{(1)}},{X^{(2)}} = {x^{(2)}},...,{X^{(n)}} = {x^{(n)}}),k=1,2...,K$ (4)
如果按照第一节中提到的贝叶斯公式直接进行计算，需要估计的参数将按照指数级增长。假设

xj $x^{j}$ 的取值有

Sj $S_j$ ,j=1,2,…,n,n为特征维度，y的取值有K个，那么需要估计的参数个数大约为

K∏j=1nSj $K\prod\limits_{j = 1}^n {{S_j}}$ 个。如果X,Y的取值均是boolean variable，那么需要估计的参数大约为

2n+1 $2^{n+1}$ 个。面对如此多的参数，学习将变得非常的低效，因此我们引入了朴素贝叶斯的概念。这里的“朴素”就是作了条件概率中各条件具有独立的假设，这时，(4)的条件概率可以写作：

P (X = x | Y = c k) = P (X (1) = x (1), X (2) = x (2), . . ., X (n) = x (n)) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{array}{l} P(X = x|Y = {c_k}) = P({X^{(1)}} = {x^{(1)}},{X^{(2)}} = {x^{(2)}},...,{X^{(n)}} = {x^{(n)}})\\ = \prod\limits_{j = 1}^n {P({X^{({\rm{j}})}} = {x^{(j)}}|Y = {c_k})} \end{array}$ (5)
此时，需要学习的参数只有

∑j=1nK∗Sj $\sum\limits_{j = 1}^n {K*{S_j}}$ 个，特别是当特征的维度很高时，两者的差距将会非常的明显。可以得到朴素贝叶斯分类的基本公式：

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum k P ( X = x | Y = c k ) P ( Y = c k ) = P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ), k = 1, 2, . . ., K

$\begin{array}{l} P(Y = {c_k}|X = x) = \frac{{P(X = x|Y = {c_k})P(Y = {c_k})}}{{\sum\limits_k {P(X = x|Y = {c_k})P(Y = {c_k})} }}\\ = \frac{{P(Y = {c_k})\prod\limits_j {P({X^{({\rm{j}})}} = {x^{(j)}}|Y = {c_k})} }}{{\sum\limits_k {P(Y = {c_k})\prod\limits_j {P({X^{({\rm{j}})}} = {x^{(j)}}|Y = {c_k})} } }},k = 1,2,...,K \end{array}$ (6)
取使(6)式最大的

ck $c_k$ 作为需要预测的样本所属的类别