统计学习方法 4-朴素贝叶斯法

本文介绍了朴素贝叶斯法的基本原理,包括先验概率与条件概率的学习过程,以及如何利用条件独立性假设进行分类。此外,还探讨了贝叶斯分类器的工作原理及其参数估计方法。

朴素贝叶斯法的学习与分类

基本方法

朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。
先验概率分布:

P(Y=ck),k=1,2,,K

条件概率分布:
P(X=x|Y=ck)=P(X(1)=x(1),,X(n)=x(n)|Y=ck),k=1,2,,K

于是学习到联合概率分布P(X,Y)

条件独立性假设

P(X(1)=x(1),,X(n)=x(n)|Y=ck)=j=1nP(X(j)=x(j)|Y=ck)

朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。

P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)kP(X=x|Y=ck)P(Y=ck)=P(Y=ck)jP(Xj=xj|Y=ck)kP(Y=ck)jP(Xj=xj|Y=ck)

贝叶斯分类器
y=f(x)=argmaxckP(X=x|Y=ck)P(Y=ck)kP(X=x|Y=ck)P(Y=ck)=argmaxckP(X=x|Y=ck)P(Y=ck)

后验概率最大化的含义

后验概率最大等价于期望风险最小化。

朴素贝叶斯法的参数估计

极大似然估计

先验概率P(Yck)的极大似然估计是:

P(Y=ck)=ki=1I(yi=ck)N,k=1,2,,K

学习与分类算法

贝叶斯估计

条件概率的贝叶斯估计:

Pλ(X(j)=aji|Y=ck)=Ni=1I(xji=aji,yi=ck)+λNi=1I(yi=ck)+Sjλ

λ=0,极大似然估计。
λ=1,拉普拉斯平滑。

先验概率的贝叶斯估计:

P(Y=ck)=ki=1I(yi=ck)+λN+Kλ

总结

朴素贝叶斯是典型的生成学习方法。生成方法由训练数据得到联合概率分布,再求得后验概率分布。


似然函数
概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。

  • 离散型概率分布
    L(θ|x)=pθ(x)=P(X=x;θ),此处并非条件概率,因为θ不(总)是随机变量。
  • 连续性概率分布
    L(θ|x)=f(x;θ),此处并非条件概率,因为θ不(总)是随机变量。
### 朴素贝叶斯分类器算流程 朴素贝叶斯分类器的核心在于利用贝叶斯定理计算后验概率,并假设特征之间相互独立。以下是该算的主要流程: #### 数据准备阶段 1. 收集并整理训练数据集合,确保每条记录都带有明确的类别标签[^1]。 2. 对于连续型变量,通常会将其离散化处理以便后续的概率估计更加简便。 #### 训练模型阶段 3. 针对每一个可能的目标类别 \( C_k \),统计训练集中属于此类别的样本数量占总样本数的比例,得到先验概率 \( P(C_k) \)。 4. 统计每个属性值条件下各个目标类别的联合分布情况,从而估算条件概率 \( P(x_i|C_k) \) 。这里可以采用极大似然估计或其他平滑技术来完成这一过程[^3]。 #### 测试预测阶段 5. 当接收到一个新的测试样例时,分别依据上述所学得的知识去评估它归属于不同类别的可能性大小——即求解各 \( P(C_k|x_1,x_2,...,x_n)=P(C_k)\prod_{i=1}^{n}{P(x_i|C_k)}\) 的数值[^5]。 6. 找出使得上式取得最大值得那个特定类别标记作为最终判定结果。 为了提升效率,在某些应用场景下还可以预先计算好所有必要的概率项并将它们保存下来形成所谓的“查找表”,如此一来当面临实时在线请求的时候便可以直接查询而无需重复运算整个推导链条了[^4]。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB # 加载鸢尾花数据集 data = load_iris() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.5, random_state=0) gnb = GaussianNB() # 使用训练数据拟合高斯朴素贝叶斯模型 y_pred = gnb.fit(X_train, y_train).predict(X_test) print(f"Number of mislabeled points out of a total {X_test.shape[0]} points : {(y_test != y_pred).sum()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值