朴素贝叶斯法_naive_Bayes

原创已于 2024-01-02 11:53:12 修改 · 1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能 #数据挖掘

于 2023-12-24 14:11:08 首次发布

机器学习常用算法专栏收录该内容

11 篇文章

订阅专栏

本文介绍了朴素贝叶斯算法，一种基于贝叶斯定理和特征条件独立假设的分类方法。它通过学习训练数据集中的先验概率和条件概率来预测新输入的类别。算法的核心在于假设特征之间相互独立，简化了参数估计过程。

朴素贝叶斯法（naive Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

基本方法：

设输入空间 $X⊆RnX\subseteq R^n$ 为 $n$ 维向量的集合，输出空间为类标记集合 $Y=\{c_1,c_2,...,c_k\}$ 。输入为特征向量 $x∈Xx\in X$ ，输出为类标记 $y∈Yy\in Y$ 。 $X$ 是定义在输入空间 $X$ 上的随机向量， $Y$ 是定义在输出空间 $Y$ 上的随机变量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 由 $P (X, Y)$ 独立同分布产生。

朴素贝叶斯算法就是通过训练数据集学习联合概率分布 $P (X, Y)$ 。

具体地，学习以下先验概率分布及条件概率分布。
先验概率分布： $P(Y=Ck),k=1,2,...,KP(Y=C_k), \quad k=1,2,...,K$ ；
条件概率分布： $P(X=x∣Y=Ck)=P(X(1)=x(1),...,X(n)=x(n)∣Y=Ck),k=1,2,...,KP(X=x|Y=C_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=C_k),\quad k=1,2,...,K$ 。

由于条件概率分布 $P(X=x|Y=C_k)$ 由指数级数量的参数，其估计实际是不可能的。事实上，假设特征 $X^{(j)}$ 可能的取值有 $S_j$ 个， $j = 1, 2, ..., n$ ， $Y$ 可能取值有 $K$ 个，那么参数个数为 $K∏j=1nSjK\prod_{j=1}^{n}S_j$ 个。

于是朴素贝叶斯算法对条件概率分布作出了条件独立性的假设。这是一个非常强的假设，等于是说用于分类的特征在类确定的条件下都是条件独立的，具体地，条件独立性假设是
$P(X=x|Y=C_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=C_k)$
$=∏j=1nP(X(j)=x(j)∣Y=Ck)\qquad \quad =\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=C_k)$

朴素贝叶斯算法在进行分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=C_k|X=x)$ ，然后将后验概率最大的类作为 $x$ 的输出。后验概率计算根据贝叶斯定理进行：
$P(Y=Ck∣X=x)=P(X=x∣Y=Ck)P(Y=Ck)∑kP(X=x∣Y=Ck)P(Y=Ck)P(Y=C_k|X=x)=\frac{P(X=x|Y=C_k)P(Y=C_k)}{\sum_{k}P(X=x|Y=C_k)P(Y=C_k)}$
$=P(Y=Ck)∏jP(X(j)=x(j)∣Y=Ck)∑kP(Y=Ck)∏jP(X(j)=x(j)∣Y=Ck)\qquad \qquad \qquad \qquad=\frac{P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}{\sum_{k}P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}$

于是，朴素贝叶斯分类器可表示为
$y=f(x)=argmax⁡CkP(Y=Ck)∏jP(X(j)=x(j)∣Y=Ck)∑kP(Y=Ck)∏jP(X(j)=x(j)∣Y=Ck)y=f(x)=arg\max_{C_k}\frac{P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}{\sum_{k}P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)}$

由于分母对所有的类都是相同的，所以
$y=f(x)=argmax⁡CkP(Y=Ck)∏jP(X(j)=x(j)∣Y=Ck)y=f(x)=arg\max_{C_k}P(Y=C_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=C_k)$

算法：
输入：训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$ ， $x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $xi(j)∈{aj1,aj2,...,ajSj}x_i^{(j)} \in \{a_{j1},a_{j2},...,a_{jS_j}\}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j = 1, 2, ..., n$ ， $l=1,2,...,S_j$ ， $yi∈{C1,C2,...,Ck}y_i \in \{C_1,C_2,...,C_k\}$ ；实例 $x$ 。
输出：实例 $x$ 的分类。

计算先验概率及条件概率
$P(Y=Ck)=∑i=1NI(yi=Ck)N,k=1,2,...,kP(Y=C_k)=\frac{\sum_{i=1}^{N}I(y_i=C_k)}{N}, \qquad k=1,2,...,k$
$P(X(j)=ajl∣Y=Ck)=∑i=1NI(x(j)=ajl,yi=Ck)∑i=1NI(yi=Ck)P(X^{(j)}=a_{jl}|Y=C_k)=\frac{\sum_{i=1}^{N}I(x^{(j)}=a_{jl},y_i=C_k)}{\sum_{i=1}^{N}I(y_i=C_k)}$
$j=1,2,...,n;l=1,2,...,Sj;k=1,2,...,K\qquad j=1,2,...,n; \quad l=1,2,...,S_j; \quad k=1,2,...,K$
对于给定实例 $x={(x^{(1)},x^{(2)},...,x^{(n)})}^T$ ，计算(这里用到了特征条件独立假设)
$P(Y=Ck)∏j=1nP(X(j)=x(j)∣Y=Ck),k=1,2,...,KP(Y=C_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=C_k),\qquad k=1,2,...,K$
确定实例 $x$ 的分类
$y=argmax⁡CkP(Y=Ck)∏j=1nP(X(j)=x(j)∣Y=Ck)y=arg\max_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=C_k)$