第四章朴素贝叶斯法的学习和分类

最新推荐文章于 2022-07-29 17:12:26 发布

原创最新推荐文章于 2022-07-29 17:12:26 发布 · 192 阅读

0 ·

CC 4.0 BY-SA版权

统计机器学习专栏收录该内容

26 篇文章

订阅专栏

本文详细介绍了朴素贝叶斯法的学习过程和分类原理，包括先验概率、条件概率的估计，以及极大似然估计和贝叶斯估计在参数估计中的应用。通过学习联合分布概率分布P(X,Y)，利用条件独立性假设简化问题，实现分类器的构建。在分类时，采用后验概率最大化的准则，以期望风险最小化为目标。" 51800210,4852813,稀疏矩阵转置实现与优化,"['数据结构', '矩阵转置', '稀疏矩阵']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

朴素贝叶斯法学习日志

第四章朴素贝叶斯法的学习和分类

通过学习以下先验概率分布及条件概率分布学习联合分布概率分布 $P (X, Y)$
即学习以下先验概率分布及条件概率分布
先验概率分布 $P(Y=ck),k=1,2,⋯ ,KP\left(Y=c_{k}\right), \quad k=1,2, \cdots, K$
条件概率分布
$P(X=x∣Y=ck)=P(X(1)=x(1),⋯ ,X(n)=x(n)∣Y=ck),k=1,2,⋯ ,KP\left(X=x | Y=c_{k}\right)=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right), \quad k=1,2, \cdots, K$
学习得到联合概率分布 $P (X, Y)$
而条件概率分布 $P(X=x∣Y=ck)P\left(X=x | Y=c_{k}\right)$ 有指数级数量的参数，其估计实际是不可行的（事实上假设 $x^{(j)}$ 可取值有 $S_{j}$ 个, $\cdots, n$ ， $Y$ 可取值有 $K$ 个，那么参数个数为 $\prod_{j=1}^{n} S_{j}$ )
朴素贝叶斯法对条件概率分布作了条件独立性的假设，由于这是一个较强的假设，朴素贝叶斯法也由此得名，条件独立性假设是
$P(X=x∣Y=ck)=P(X(1)=x(1),⋯ ,X(n)=x(n)∣Y=ck)=∏j=1nP(X(j)=x(j)∣Y=ck)(1)P\left(X=x | Y=c_{k}\right)=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right)\\=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \quad(1)$ 朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=ck∣X=x)P\left(Y=c_{k} | X=x\right)$ ，将后验概率最大的类作为 $x$ 类的输出，后验概率计算根据贝叶斯定理进行：
$P(Y=ck∣X=x)=P(X=x∣Y=ck)P(Y=ck)∑kP(X=x∣Y=ck)P(Y=ck)(2)P\left(Y=c_{k} | X=x\right)=\frac{P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)}{\sum_{k} P\left(X=x | Y=c_{k}\right) P\left(Y=c_{k}\right)} \quad(2)$ 将式 $(1)$ 带入式 $(2)$ 有 $P(Y=ck∣X=x)=P(Y=ck)∏jP(X(j)=x(j)∣Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck),k=1,2,⋯ ,K(3)P\left(Y=c_{k} | X=x\right)=\frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}, \quad k=1,2, \cdots, K \quad(3)$
这是朴素贝叶斯法分类的基本公式。于是，朴素贝叶斯分类器可表示为
$y=f(x)=arg⁡max⁡ckP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)∑kP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)(4)y=f(x)=\arg \max _{c_{k}} \frac{P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}{\sum_{k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)}\quad(4)$
注意到，在式 $(3)$ 中分母对所有类都是相同的，所以有 $y=arg⁡max⁡ckP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)y=\arg \max _{c_k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y = c_{k}\right)$

后验概率最大化含义

朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化，假设选择 $0 - 1$ 损失函数： $f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.$ 式中 $f (X)$ 是分类决策函数。这时，期望风险函数为 $R_{\exp }(f)=E[L(Y, f(X))]$ 期望是对联合概率分布 $P (X, Y)$ 取的，由此取条件期望 $Rexp(f)=EX∑k=1K[L(ck,f(X))]P(ck∣X)R_{\mathrm{exp}}(f)=E_{X} \sum_{k=1}^{K}\left[L\left(c_{k}, f(X)\right)\right] P\left(c_{k} | X\right)$ 为了使期望风险最小化，只需对 $X = x$ 逐个极小化，由此得到： $f(x)=arg⁡min⁡y∈Y∑k=1KL(ck,y)P(ck∣X=x)=arg⁡min⁡y∈Y∑k=1KP(y≠ck∣X=x)=arg⁡min⁡y∈Y(1−P(y=ck∣X=x))=arg⁡max⁡y∈YP(y=ck∣X=x)\begin{aligned} f(x) &=\arg \min _{y \in\mathcal{Y}} \sum_{k=1}^{K} L\left(c_{k}, y\right) P\left(c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}} \sum_{k=1}^{K} P\left(y \neq c_{k} | X=x\right) \\ &=\arg \min _{y \in \mathcal{Y}}\left(1-P\left(y=c_{k} | X=x\right)\right) \\ &=\arg \max _{y \in \mathcal{Y}} P\left(y=c_{k} | X=x\right) \end{aligned}$ 这样，根据期望风险最小化准则就得到了后验概率最大化准则： $f(x)=arg⁡max⁡ckP(ck∣X=x)f(x)=\arg \max _{c_{k}} P\left(c_{k} | X=x\right)$ 即朴素贝叶斯法所采用的原理。

朴素贝叶斯法的参数估计

极大似然估计
在朴素贝叶斯法中，学习意味着估计 $P(Y=ck)P\left(Y=c_{k}\right)$ 和 $P(X(j)=x(j)∣Y=ck)P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right)$ 可以应用极大似然估计估计相应的概率
先验概率 $P(Y=ck)P\left(Y=c_{k}\right)$ 的极大似然估计是 $P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,⋯ ,KP\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, k=1,2, \cdots, K$
设第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 ${aj1,aj2,⋯ ,ajSj}\left\{a_{j 1}, a_{j 2}, \cdots, a_{j S_{j}}\right\}$ ，条件概率 $P(X(j)=ajl∣Y=ck)P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)$ 的极大似然估计是 $P(X(j)=ajl∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)∑i=1NI(yi=ck)P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l} ,y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$ $\cdots, n ; \quad l=1,2, \cdots, S_{j} : k=1,2, \cdots, K$ 式中， $xi(j)x^{(j)}_i$ 是第 $i i$ 个样本的第个 $j$ 特征， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值； $I$ 为指示函数
朴素贝叶斯算法
输入：训练数据 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，其中 $xi=(xi(1),xi(2),⋯ ,xi(n))Tx_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}}$ , $xi(j)x^{(j)}_i$ 是第 $i$ 个样本的第 $j$ 个特征， $xi(j)∈{ajj,aj2,⋯ ,ajs}x_{i}^{(j)} \in\left\{a_{j j}, a_{j 2}, \cdots, a_{j s}\right\}$ ， $a_{j l}$ 是第 $j$ 个特征可能取的第 $l$ 个值 $\cdots, n, \quad I=1,2, \cdots, S_{j}, \quad y_{i} \in\left\{c_{1}, c_{2}, \cdots, c_{K}\right\}$ ；实例 $x$
输出：实例 $x$ 的分类
$(1)$ 计算先验概率及条件概率
$P(Y=ck)=∑i=1NI(yi=ck)N,k=1,2,⋯ ,KP\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, k=1,2, \cdots, K$ $P(X(j)=ajl∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)∑i=1NI(yi=ck)P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l} ,y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$ $\cdots, n ; \quad l=1,2, \cdots, S_{j} : k=1,2, \cdots, K$ $(2)$ 对于给定的实例 $x=(x(1),x(2),⋯ ,x(n))Tx=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{\mathrm{T}}$ ，计算 $P(Y=ck)∏j=1nP(X(j)=x(j)∣Y=ck),k=1,2,⋯ ,KP\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right), \quad k=1,2, \cdots, K$ $(3)$ 确定实例 $x$ 的类 $y=arg⁡max⁡ckP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)y=\arg \max _{c_k} P\left(Y=c_{k}\right) \prod_{j} P\left(X^{(j)}=x^{(j)} | Y = c_{k}\right)$

贝叶斯估计

用极大似然估计可能会出现所要估计的概括值为 $0$ 的情况，这时会影响到后验概率大计算结果，产生分类偏差，解决这一问题的方法是采用贝叶斯估计，具体地，条件概率的贝叶斯估计是 $Pλ(X(j)=ajl∣Y=ck)=∑i=1NI(xi(j)=ajl,yi=ck)+λ∑i=1NI(yi=ck)+SjλP_{\lambda}\left(X^{(j)}=a_{jl} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l} ,y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}$ 式中 $λ⩾0\lambda \geqslant 0$ 。等价于在随机变量各个取值大频数上赋予一个正数 $λ>0\lambda>0$ .当 $λ=0\lambda=0$ 时就是极大似然估计,常取 $λ=1\lambda=1$ ，这时称为拉普拉斯平滑 $)(\text { Laplace smoothing })$
显然，对任何 $\cdots, S_{j}, \quad k=1,2, \cdots, K$ ，有 $Pλ(X(j)=ajl∣Y=ck)>0{P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)>0}$ $∑l=1sjP(X(j)=ajl∣Y=ck)=1{\sum_{l=1}^{s_{j}} P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=1}$