朴素贝叶斯总结(一)

本文介绍了朴素贝叶斯分类器的基本概念,包括先验概率和条件概率的计算,通过西瓜测试数据展示了如何运用该算法进行分类,并讨论了平滑技术以处理未在训练集中出现的属性值问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 简介

机器学习分为监督学习和无监督学习,监督学习又可分为生成模型判别模型

当给定训练数据D,确定假设空间H种的最佳假设。通常我们的做法是寻找一个最佳分类面,当来了一个数据X时,判断其在各个分类上的概率,输出概率最大的分类,此种方法为判别模型,常见的生成模型有SVM,逻辑回归,K近邻等。
朴素贝叶斯则属于生成模型,即先学习各分类下的特点,当来了一个数据X时,判断X在各个分类下的概率,概率最大的即为X的分类。

2. 推导公式

根据贝叶斯定理有:
P(A∣B)=P(B∣A)∗P(A)∑i=1nP(Ai)∗p(B∣Ai) P(A|B)=\frac{P(B|A) * P(A)}{\sum_{i=1}^nP(A_i)*p(B|Ai)} P(AB)=i=1nP(Ai)p(BAi)P(BA)P(A)
其中P(A)被称为先验概率,其公式为:
p(A=ck)=∑i=1nP(Ai=ck)N p(A=c_k)=\frac{\sum_{i=1}^nP(A_i=c_k)}{N} p(A=ck)=Ni=1nP(Ai=ck)
p(B|A)为条件概率,其公式为:
p(B=b∣A=ck)=∑i=1nP(b=bi,A=ck)∑i=1nP(Ai=ck) p(B=b|A=c_k)=\frac{\sum_{i=1}^nP(b=b_i,A=c_k)}{\sum_{i=1}^nP(Ai=c_k)} p(B=bA=ck)=i=1nP(Ai=ck)i=1nP(b=bi,A=ck)
将式子2和3带入贝叶斯定理可知,当我们求给定数据的分类时,就是求给定的数据在属于哪一类的情况下概率最大:
y=argmaxP(A=ck)∏i=1nP(X=xi∣A=ck) y=argmaxP(A=c_k) \prod_{i=1}^n{P(X=x_i|A=c_k)} y=argmaxP(A=ck)i=1nP(X=xiA=ck)

3. 计算

有如下的西瓜测试数据

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
1青绿蜷缩浊响清晰凹陷硬滑0.6970.460
2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376
3乌黑蜷缩浊响清晰凹陷硬滑0.6340.264
4青绿蜷缩沉闷清晰凹陷硬滑0.6080.318
5浅白蜷缩浊响清晰凹陷硬滑0.5560.215
6青绿稍蜷浊响清晰稍凹软粘0.4030.237
7乌黑稍蜷浊响稍糊稍凹软粘0.4810.149
8乌黑稍蜷浊响清晰稍凹硬滑0.4370.211
9乌黑稍蜷沉闷稍糊稍凹硬滑0.6660.091
10青绿硬挺清脆清晰平坦软粘0.2430.267
11浅白硬挺清脆模糊平坦硬滑0.2450.057
12浅白蜷缩浊响模糊平坦软粘0.3430.099
13青绿稍蜷浊响稍糊凹陷硬滑0.6930.161
14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.198
15乌黑稍蜷浊响清晰稍凹软粘0.3600.370
16浅白蜷缩浊响模糊平坦硬滑0.5930.042
17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103

试判断如下测试样例是好瓜还是坏瓜:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
测 1青绿蜷缩浊响清晰凹陷硬滑0.6970.460

P(好瓜=是)=8/17=0.471
P(好瓜=否)=9/17=0.529
P(色泽=青绿|好瓜=是)=3/8=0.375
P(色泽=青绿|好瓜=否)=3/9=0.333
P(根蒂=蜷缩|好瓜=是)=5/8=0.625
P(根蒂=蜷缩|好瓜=否)=3/9=0.333
P(敲声=浊响|好瓜=是)=6/8=0.750
P(敲声=浊响|好瓜=否)=4/9=0.444
P(纹理=清晰|好瓜=是)=7/8=0.875
P(纹理=清晰|好瓜=否)=2/9=0.222
P(脐部=凹陷|好瓜=是)=6/8=0.750
P(脐部=凹陷|好瓜=否)=2/9=0.222
P(触感=硬滑|好瓜=是)=6/8=0.750
P(触感=硬滑|好瓜=否)=6/9=0.667

计算连续数值时,把其看成符合高斯分布,带入概率密度公式进行求解,其中σ\sigmaσμ\muμ分别为平均值和方差

P(密度=0.697|好瓜=是)=12π∗0.129exp(−(0.697−0.574)22∗(0.129)∗2)\frac{1}{\sqrt{2\pi}*0.129}exp(-\frac{(0.697-0.574)^2}{2*(0.129)*2})2π0.1291exp(2(0.129)2(0.6970.574)2)=1.956
P(密度=0.697|好瓜=否)=1.203
P(含糖率=0.460|好瓜=是)=0.788
P(含糖率=0.460|好瓜=否)=0.066
于是:
P(好瓜=是)=0.063
P(好瓜=否)=6.80*10−510^{-5}105
所以此为一个好瓜

4.引入平滑概念

当属性种出现一个测试集种从来没有出现过的元素,例如,色泽=浅绿,代入公式种则会出现分子全为0的情况,使得其他的属性值也被抹去,为了避免这种情况,我们引入了平滑的概念。
p(xi∣yi=c)=∑i=1nP(xi=a∣yi=c)+λ∑i=1nP(yi=c)+Sj∗λ p(x_i|yi=c)=\frac{\sum_{i=1}^nP(x_i=a|y_i=c)+\lambda}{\sum_{i=1}^nP(y_i=c)+S_j*\lambda} p(xiyi=c)=i=1nP(yi=c)+Sjλi=1nP(xi=ayi=c)+λ
公式中λ\lambdaλ>=0,当λ\lambdaλ=1时,我们称之为拉普拉斯平滑
例如,本题中则为:
P(好瓜=是)=8+117+2=0.474P(好瓜=是)=\frac{8+1}{17+2}=0.474P(=)=17+28+1=0.474

P(色泽=青绿∣好瓜=是)=3+18+3=0.526P(色泽=青绿|好瓜=是)=\frac{3+1}{8+3}=0.526P(=绿=)=8+33+1=0.526

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值