李航机器学习方法之朴素贝叶斯

原创已于 2023-03-23 19:14:10 修改 · 282 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #概率论 #算法

于 2023-03-11 11:22:07 首次发布

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了朴素贝叶斯算法的基础知识，包括概率统计中的独立事件、条件概率、联合概率、边缘概率和全概率，以及贝叶斯定理。朴素贝叶斯模型是一种生成方法，通过学习特征输出的联合分布和条件概率，用于分类问题。文章还讨论了处理概率为0的情况，即拉普拉斯平滑，以及最小化损失函数的期望风险与最大化后验概率的关系。

朴素贝叶斯

0.参考文献

朴素贝叶斯算法原理小结作者：刘建平

1.预备知识

1.1概率统计

1.1.1.独立事件

若 $A_1,A_2,A_3$ 相互独立：
则：
$P(A_1A_2)=P(A_1)P(A_2) \\ P(A_1A_3)=P(A_1)P(A_3) \\ P(A_2A_3)=P(A_2)P(A_3) \\ P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3)$

1.1.2.条件概率(Conditional probability)

事件 $X$ 在事件 $Y$ 发生的条件下发生的概率，公式： $\frac{P(X,Y)}{P(Y)} \\ P(Y|X)= \frac{P(X,Y)}{P(X)}$ 。
条件概率的分母不是概率空间的全部，而是条件A划定的子集范围

1.1.3.联合概率(Joint probability)

表示两个随机变量 $X$ 和 $Y$ 既要满足 $X$ 又要满足 $Y$ 的概率 $P (X, Y)$ （也可以写成 $P (X Y)$ ），多维要考虑所有维度同时变。
联合概率是事件A和事件B同时满足的概率，和条件概率的区别在于联合概率的分母是整个概率空间1。

1.1.4.边缘概率（Marginal Probability）

相对于联合概率而言的的，虽然有两个变量 $X, Y$ ，但是可以只考虑 $X$ 或者 $Y$ 的分部，好像另外一个不存在一样， $P(X=a)\sum_b P(X=a, Y=b)\\ P(X=b)\sum_a P(X=a, Y=b)$

1.1.5.全概率

quangailv
事件 $A_1,A_2,\cdots,A_n$ 形成样本空间的一个划分；
事件 $B$ 可以分解成不相交的 $n$ 个事件的并，即： $B=(A_1\cap B)\cup (A_2\cap B) \cup (A_3\cap B)\cup \cdots \cup (A_n\cap B)$ ，即 $P(B)=P(A_1\cap B)\cup P(A_2\cap B) \cup P(A_3\cap B)\cup \cdots \cup P(A_n\cap B)$ ，利用条件概率定义 $P(A_i \cap B)=P(A_i)P(B|A_i)$ ，进一步得 $P(B)=P(B|A_1)P(A_1) + \cdots +P(B|A_n)P(A_n)$ ，主要用于 $P (B)$ 难以计算时，但是若条件概率 $P(B|A_i)$ 已知时，就很容易计算出 $P (B)$ 。
全概率公式说明了：1.边缘概率与联合概率的关系，而条件概率公式则说明了联合概率与条件概率的关系；2.边缘概率可以由联合概率对另一个随机事件求和（或积分）求得： $p(x)=\int_zp(x,z)dz=\int_zp(x|z)p(z)dz$ ，与前面的（这里是连续性，前面是离散性）对应起来了。
可以这样理解：全概率就是表达达到某种目的，有多种方式，每种方式又有对应的成功率，问达到目的概率有多少？
就是把达到目的的所有情况加起来。

1.1.6.概率密度函数

如何通俗的理解概率密度函数？ - 我不知道的回答 - 知乎
我们一直所说的概率密度函数就是只我们想要求面积时候的那个图形的表达式。

1.1.7.期望和均值的区别

期望是指某件事大量发生后的平均结果，反应了随机变量平均取值的大小。
计算期望的公式： $\mathbb{E}[X]=\sum_{k=1}^K x_kp_k$ ，其中 $x$ 为 $X$ 的取值， $p$ 为在 $X$ 为该取值的概率， $K$ 为 $x$ 可取值的数量。
期望与平均值之间的关系： $\frac{\sum_{k=1}^Kn_kx_k}{N}=\sum_{k=1}^Kn_kx_k\frac{n_k}{N}=\sum_{k=1}^Kn_kx_kp_k=\mathbb{E}[X]$

期望和均值的区别 - 忆臻的文章 - 知乎
随机变量 $X_i$ 发生的概率为 $P(X_i)$ ，则其数学期望为 $\mathbb{E}[X_i]=\sum_i X_i P(X_i)$
设 $f (X)$ 为连续型随机事件的密度函数，那么在 $X$ 点的概率为 $P (X) = f (X) d X$ ，则对应的数学期望为 $\mathbb{E}[X_i]=\int_X Xf(X)dX$
期望是与概率值联系在一起的，如果说概率是频率随样本趋于无穷的极限，期望就是平均数随样本趋于无穷的极限，可以看出均值和期望的联系也是大数定理联系起来的。
概率是频率随样本趋于无穷的极限，期望是平均数随样本趋于无穷的极限。
评论中：个人理解：均值为多个随机变量的和再除以个数，相当于还是一个随机变量，当数量足够多的时候，这个随机变量会收敛，这个收敛的值为期望。

2.贝叶斯定理

2.1 前言

对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数 $Y = f (X)$ ，要么是条件分布 $P (Y ∣ X)$ 。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出 $Y$ 和特征 $X$ 的联合分布 $P (X, Y)$ ，然后用 $P(Y|X)=\frac{P(X,Y)}{P(X)}$ 得出。

2.2 朴素贝叶斯模型

已知 $T=\{(x_1,y_1),\cdots,(x_m,y_m)\}=\{(x_1^{(1)},\cdots,x_n^{(1)},y_1),\cdots,(x_1^{(m)},\cdots,x_n^{(m)},y_1)\}$ ，其中 $X\in \mathbb{R}^n,x_i \in X$ 即有 $m$ 个样本，每个样本有 $n$ 个特征，特征输出有 $K$ 个类别，定义为 $C_1,\cdots,C_k$
从样本中可以学习得到朴素贝叶斯的先验分布 $P(Y=C_k)$ 和学习到条件概率分布 $P(X=x|Y=C_k)=P(X_1=x_1,\cdots,X_n=x_n|Y=C_k)$ ，这样就可以用贝叶斯公式得到X和Y的联合分布 $\begin{aligned}P(X,Y=C_k)&=P(Y=C_k)P(X=x|Y=C_k)\\ &= P(X_1=x_1,\cdots,X_n=x_n|Y=C_k)\end{aligned}$
朴素贝叶斯模型在这里做了一个大胆的假设，即X的n个维度之间相互独立，这样就可以得出: $P(X_1=x_1,\cdots,X_n=x_n)=P(X_1=x_1|Y=C_k)\cdots P(X_n=x_n|Y=C_k)$
为什么要假设这样？也就是为什么叫朴素
有 $m$ 个样本，每个样本有 $n$ 个特征，特征输出有 $K$ 个类别， $S_j$ 表示第j个特征取值的可能性的个数，那么总个数就 $K\prod_{j=1}^m S_j$ ，而总个数太大了，会导致联合概率分布算不出来，所以才假设。
我们的问题是给定测试集的一个新样本特征 $(x_1^{(test)},\cdots,x_n^{(test)})$ 我们如何判断它属于哪个类型？

3.最小化损失函数的期望风险和最大化后验概率一样

得到了朴素贝叶斯模型，下面就要定义损失函数，在朴素贝叶斯方法中用到0-1损失函数： $L(Y,f(X))=\begin{cases} 1,Y \neq f(X) \\ 0,Y=f(X) \end{cases}$ ， $f (X)$ 是分类决策函数， $Y$ 是对应的分类，输出空间为 $\{c_1,\cdots,c_K\}$ ，当两者相等，证明分类正确，没有损失，反之记为1，有损失。
这个损失函数对应的期望是： $R(f)=\mathbb{E}[L(Y,f(X))]$ ，期望风险最小化。期望风险的含义是：模型关于联合分布的期望损失，学习的目标就是选择期望风险最小的模型。
因为期望的定义是值出现的概率乘以具体值之和，所以上式可转换为损失函数与联合概率之积的积分： $\begin{aligned}R(f)&=\mathbb{E}[L(Y,f(X))]\\&=\int_{x,y} L(y,f(x))P(x,y)dxdy \\ &=\int_{x,y} L(y,f(x))P(y|x)P(x)dxdy \\ &=\int_{x} \int_{y} L(y,f(x))P(y|x)dyP(x)dx\end{aligned}$
在上式的推导中用了联合概率，边缘概率和条件概率的关系。
而 $L(y,f(x))>0,P(y|x)>0\rightarrow \int_{y} L(y,f(x))P(y|x)dy >0$ ，而当 $X_i=x_i$ 时， $P(X_i=x_i)$ 为常数，所以： $\begin{aligned}f(x) &= \argmin_{y\in Y}\sum_{k=1}^K L(c_k,y)P(y=c_k|X=x)\\ &= \argmin_{y\in Y}\sum_{k=1}^K P(y\neq c_k|X=x) ，是因为损失函数表示当分类错误时取1（0表示对了，不用），那么我们只需要最小化分类错误的概率\\ &=\argmin_{y\in Y}(1-P(y=c_k|X=x)) \\ &=\argmax_{y\in Y}(y=c_k|X=x) \end{aligned}$
最后推导出在朴素贝叶斯分类器中，期望风险最小化等价于后验概率最大化。
通常意义上的贝叶斯推断公式就是： $C_{res} = \argmax_{C_k}P(Y=C_k)\prod_{j=1}^nP(X_j^{(test)}=x_j|Y=C_k)$

4.处理概率为0的情况（拉普拉斯平滑）

有时，某些类别在样本中没有出现，这样可能导致 $P(x_i|Y=C_k)$ 为0，这样会影响后验的估计，为了解决这种情况，我们引入了拉普拉斯平滑，它的思想非常简单，就是对每个类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。即此时有：在这里插入图片描述
其中 $a_{jl}$ ，代表第 $j$ 个特征的第 $l$ 个选择， $S_j$ 代表第 $j$ 个特征的个数， $K$ 代表种类的个数。
为1，这也很好理解，加入拉普拉斯平滑之后，避免了出现概率为0的情况，又保证了每个值都在0到1的范围内，又保证了最终和为1的概率性质！

5.小结

$P(x_1,x_2,x_3,\cdots|y=1)=P(x_1|y=1)P(x_2|y=1)P(x_3|y=1)\cdots$ ，若各项的值太小如： $0.01^20$ ，会导致under flow，所以一般加上 $\log$ ，这样乘变成加就可以了。

6.补充

例： $Y$ 分为两类 $c_1,c_2$ ，相应参数为 $\theta_1$ ，假设参数服从均匀分布 $U (0, 1)$ ，求参数 $\theta_1$ 的贝叶斯估计。
参数 $\theta_1$ 的先验概率 $f(\theta_1)=1$ ，因为 $U(0,1)=\frac{1}{1-0}=1$
已知 $\theta_1$ 时 $Y$ 的条件概率 $g(Y|\theta_1)=\begin{cases}\theta_1,Y=c_1\\1-\theta_1,Y=c_2\end{cases}$

$P(\theta|Y)=\frac{P(Y|\theta)P(\theta)}{P(Y)}$ ，样本为 $\{y_1,\cdots,y_n\}$ ，类别 $c_1$ 有 $N_1$ 个， $c_2$ 有 $N-N_1$ 个，似然： $\theta_1^{N_1}(1-\theta_1)^{N-N_1}$

参数最大化：
$\argmax_{\theta_1}[\theta_1^{N_1}(1-\theta_1)^{N-N_1}]$ ，可以使用求导法来求解，解得 $\theta_1=\frac{N_1}{N}$ ，只要假设先验为均匀分布，贝叶斯变成了频率。

$P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda}$ ，
对公式简化：记 $\sum_{i=1}^NI(y_i=c_k)$ 为 $N_k$ ， $P_\lambda(Y=c_k)$ 记为 $\theta_k$ ，原式就转变为 $(\theta_kN-N_k)+\lambda(K\theta_k-1)=0$ ，若 $(\theta_kN-N_k)=0$ 就是极大似然， $K\theta_k-1=0$ 就是先验概率，所以贝叶斯估计就是极大似然+先验的凸组合。
若上式 $\lambda=1$ ，就是拉普拉斯平滑。