统计学习笔记（四）朴素贝叶斯法

最新推荐文章于 2025-01-14 11:08:57 发布

原创最新推荐文章于 2025-01-14 11:08:57 发布 · 641 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#朴素贝叶斯 #概率论与数理统计 #统计学习方法

Machine learning 专栏收录该内容

7 篇文章

订阅专栏

朴素贝叶斯法

4.1 naive Bayes的学习与分类

4.1.1 基本方法

设输入空间为n维向量的集合 $\frak{X} \subseteq R^n$ ，输出空间为类标记的集合 $Y=\left \{ c_1, c_2, ... , c_K \right \}$ 。输入为特征向量 $x \in X$ ，输出为类标记 $y \in Y$ 。X是定义在输入空间上的随机变量，Y是定义在输出空间上的随机变量。 $P(X, Y)$ 是XY的联合概率分布。训练数据集

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\left \{ (x_1,y_1), (x_2,y_2), ... , (x_N, y_N) \right \}$ 根据联合概率分布

P(X,Y) $P(X, Y)$ 独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布 $P(X,Y)$ 。具体的，学习以下先验概率分布及条件概率分布。先验概率分布

P (Y = c k), k = 1, 2, . . ., K

$P(Y=c_k),k=1,2,...,K$
条件概率分布

P (X = x | Y = c k) = P (X (1) = x (1), X (2) = x (2), . . ., X (n) = x (n)), k = 1, 2, . . ., K

$P(X=x|Y=c_k)=P \left( X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)} \right), k=1,2,...,K$
朴素贝叶斯法对条件概率分布作了条件独立性假设。假设

P (X = x ∣ Y = c k) = P (X (1) = x (1), X (2) = x (2), . . ., X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) ∣ Y = c k) . . . . . (4.3)

$\begin {aligned} P(X=x \mid Y=c_k) &=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)} | Y=c^k) \\ &=\prod_{j=1}^{n} P \left( X^{(j)}=x^{(j)} \mid Y=c^k \right) \end {aligned} .....(4.3)$
朴素贝叶斯法实际上学习到了生成数据的机制，所以属于生成模型。

朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k \mid X=x)$ ，将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：

P (Y = c k ∣ X = x) = P ( X = x ∣ Y = c k ) P ( Y = c k ) \sum K k = 1 P ( X = x ∣ Y = c k ) P ( Y = c k ) \dots \dots \dots \dots (4.4)

$P(Y=c_k \mid X=x) = \frac { P(X=x \mid Y=c_k)P(Y=c_k)} { \sum_{k=1}^K {P(X=x \mid Y=c_k)P(Y=c_k)} } …………(4.4)$
（注：其实公式4.4右半部分的分母能进一步简化为

P(X=x) $P(X=x)$ ，因为式中对

Y $Y$ 的每一种情况下

X=x $X=x$ 的概率求和，也就是

X=x $X=x$ 的概率

P(X=x) $P(X=x)$ 。）

$\\$
将(4.3)带入(4.4)，

P (Y = c k ∣ X = x) = P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) ∣ Y = c k ) \sum k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) ∣ Y = c k ) \dots (4.5)

$P(Y=c_k \mid X=x) = \frac { P(Y=c_k) { \prod_{j=1}^{n} { P( X^{(j)}=x^{(j)} \mid Y=c^k ) } } } { \sum_k { P(Y=c_k) \prod_{j=1}^{n} { P( X^{(j)}=x^{(j)} \mid Y=c^k ) } } } …(4.5)$
于是，朴素贝叶斯分类器

y = f (x) = arg max c k P ( Y = c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) \sum k P ( c k ) \prod j P ( X ( j ) = x ( j ) | Y = c k ) . . . . . . (4.6)

$\begin{equation} y=f(x)=\mathop \arg \max_{c_k} \frac { P(Y=c_k) \prod_j P( X^{(j)}=x^{(j)} | Y=c_k ) } { \sum_k P(c_k) \prod_j P( X^{(j)}=x^{(j)} | Y=c_k ) } \end{equation} ......(4.6)$
分母对于任何一个

ck $c_k$ 都是相同的，所以只需让分子最大化即可。分类器简化为

y' = f' (x) = arg max c k P (c k) \prod j P (X (j) = x (j) | Y = c k) . . . . . . . . . (4.7)

$\begin{equation} y^{'}=f^{'}(x)=\mathop \arg \max_{c_k} { P(c_k) \prod_j P( X^{(j)}=x^{(j)} | Y=c_k ) } \end{equation} .........(4.7)$
（注：其实我上一个注已经解释过了，文中这样解释也不是不可以，就是太繁琐了。什么叫对任何一个

ck $c_k$ 都是相同的？就是说这个分母其实和

ck $c_k$ 没什么关系。具体来说，这个分母其实就是

P(X=x) $P(X=x)$ ，它对于朴素贝叶斯分类器来说是一个常数。不知我这样说读者理解了吗？）

4.1.2 后验概率最大化的含义

朴素贝叶斯法将实例分类到后验概率最大的类中，这等价于期望风险最小化。理解就好，也很好理解我不写了。

4.2 朴素贝叶斯法的参数估计

4.2.1 极大似然估计

在朴素贝叶斯法中，学习意味着估计 $P(Y=c_k)$ 和 $P( X^{(j)} = x^{(j)} | Y = c^k )$ 。可以利用极大似然估计法估计相应的概率。
先验概率的极大似然估计是

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K (4.8)

$\begin{equation} P(Y=c_k) = \frac { \sum_{i=1}^N I( y_i = c_k ) } {N} , k=1,2,...,K \end{equation} \ \ \ \ \ \ \ (4.8)$
设第j个特征向量

x(j) $x^{(j)}$ 的可能取值的集合为

{aj1,aj2,...,ajSj} $\{ {a_j}_1, {a_j}_2,...,{a_j}_{S_j} \}$ ，条件概率

P(X(j)=ajl|Y=ck) $P( X^{(j)} = {a_j}_l | Y = c_k )$ 的极大似然估计是

P (X (j) = x j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K . . . . . . (4.9)

$\begin{equation} P( X^{(j)} = {x_j}_l | Y=c_k ) = \frac { \sum_{i=1}^N I( x_i^{(j)} = {a_j}_l , y_i = c_k ) } { \sum_{i=1}^N I(y_i = c_k) } \\ j=1,2,...,n; l=1,2,...,S_j; k=1,2,...,K \end{equation} ......(4.9)$
式(4.9)中，

x(j)i $x_i^{(j)}$ 是第i个特征向量的第j个特征；

ajl ${a_j}_l$ 是第j个特征的第

l $l$ 个可能的取值；

I $I$ 是指示函数取值为0和1。

4.2.2 采用极大似然估计的学习和分类的算法

（上面的数学公式输入得我要吐了，更确切的说是边tu边写到这里。总算到算法了，离代码不远了。）
算法4.1 朴素贝叶斯算法
输入：训练数据 $T = \{ (x_1,y_1), (x_2,y_2), ...(x_N,y_N) \}$ ，其中 $x_i = { (x_i^{(1)}, x_i^{(2)}, ...x_i^{(n)} ) }^T$ ， $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_i^{(j)} \in \{ {a_j}_1, {a_j}_2, ..., {a_j}_{S_j} \}$ ， ${a_j}_l$ 是第 $j$ 个特征可能取得第 $l$ 个值， $j=1,2,...,n$ ， $l=1,2,...,S_j$ ， $y_i \in \{ c_1, c_2, ..., c_K \}$ ；实例 $x$ ：
输出：实例 $x$ 的分类。
（1）计算先验概率及条件概率

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K

$\begin {equation} P(Y=c_k) = \frac { \sum_{i=1}^N I ( y_i=c_k ) } {N}, k = 1,2,...,K P( X^{(j)} = a_{jl} | Y = c_k ) = \frac { \sum_{i=1}^N I ( x_i^{(j)} = a_{jl}, y_i = c_k ) } { \sum_{i=1}^N I ( y_i = c_k ) } \\ j = 1,2,...,n; l = 1,2,...,S_j; k = 1,2,...,K \end {equation}$
（2）对于给定的

n $n$ 维实例

x=(x(1),x(1),...,x(n))T $x={ ( x^{(1)}, x^{(1)}, ... , x^{(n)} ) }^T$ ，计算

P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k), k = 1, 2, . . ., K

$\begin {equation} P(Y=c_k) \prod_{j=1}^n P \left( X^{(j)} = x^{(j)} | Y = c_k \right), k = 1,2,...,K \end {equation}$
（3）确定实例

x $x$ 的类

y' = f' (x) = arg max c k P (c k) \prod j P (X (j) = x (j) | Y = c k)

$\begin{equation} y^{'}=f^{'}(x)=\mathop \arg \max_{c_k} { P(c_k) \prod_j P( X^{(j)}=x^{(j)} | Y=c_k ) } \end{equation}$
在此式中，运算符

arg max c k

$\begin{equation}\mathop\arg\max_{c_k}\end{equation}$ 的意义是对参数

ck $c_k$ 赋值从

c1 $c_1$ 到

cK $c_K$ ，取其中的最大值。

4.2.3 贝叶斯估计

为了避免概率为0的情况对计算结果的影响，采用贝叶斯估计。直接上贝叶斯估计的公式。

P λ (X (j) = x j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K S j : 第 j 个 特 征 的 可 能 取 值 的 个 数

$\begin{equation} P_\lambda ( X^{(j)} = {x_j}_l | Y=c_k ) = \frac { \sum_{i=1}^N I( x_i^{(j)} = {a_j}_l , y_i = c_k ) + \lambda} { \sum_{i=1}^N I(y_i = c_k) + S_j \lambda } \\ j=1,2,...,n; l=1,2,...,S_j; k=1,2,...,K \\ S_j: 第j个特征的可能取值的个数 \end{equation}$
对于任意的

j $j$ 和

l $l$ ，