朴素贝叶斯理论推导 多项式分布 利用极大似然估计进行参数估计

本文围绕朴素贝叶斯算法展开,先推导贝叶斯定理,接着定义数据,阐述朴素贝叶斯多项式模型的分类原理与求解方法。通过极大似然估计对模型参数进行估计,并使用拉格朗日乘数法求解。最后采用拉普拉斯平滑避免乘 0 或除 0 情况,得到可用于分类的估计参数。

朴素贝叶斯理论推导 多项式分布与伯努利分布 利用极大似然估计进行参数估计

(一):贝叶斯定理

先从条件概率来看

P(AB)=P(A∣B)×P(B)P(AB)=P(B∣A)×P(A) P(AB)=P(A\vert B)\times P(B)\\P(AB)=P(B\vert A)\times P(A) P(AB)=P(AB)×P(B)P(AB)=P(BA)×P(A)
上式中,A,B事件同时发生的概率等于:

B发生时,A发生的概率乘B事件发生的概率。
或者可以说是A发生时,B发生的概率乘A事件发生的概率。

举个例子:
A:喝一杯牛奶,B:吃一块面包
P(A|B):在吃一块面包的情况下,喝一杯牛奶的概率
此时若求P(AB)则要注意,P(A|B)是有条件存在的,但他的条件(吃一块面包) 仍然存在发生的概率。那么P(AB):既吃面包也喝了牛奶的概率 就是 先吃一块面包的概率乘上在这个条件下,喝了牛奶的概率。

由上面两个等式可知:
P(A∣B)=P(AB)P(B)=P(B∣A)×P(A)P(B) P(A\vert B)=\frac{P(AB)}{P(B)}=\frac{P(B\vert A)\times P(A)}{P(B)}\\ P(AB)=P(B)P(AB)=P(B)P(BA)×P(A)
现在再引入全概率公式 :
P(B)=∑i=1nP(B∣Ai)×P(Ai) P(B)=\sum_{i=1}^nP(B\vert A_i)\times P(A_i)\\ P(B)=i=1nP(BAi)×P(Ai)
则有:
P(A∣B)=P(B∣A)×P(A)∑i=1np(B∣Ai)×P(Ai) P(A\vert B)=\frac{P(B\vert A)\times P(A)}{ {\displaystyle\sum_{i=1}^n}p(B\vert A_i)\times P(A_i)}\\ P(AB)=i=1np(BAi)×P(Ai)P(BA)×P(A)
这就是贝叶斯公式了。

(二)数据的定义

数据集:(i是数据集下标)
(X,Y)={     (x1,y1)  ,  (x2,y2)...(xi,yi)...(xN,yN)  } (X,Y)=\{\;\;(x_1,y_1)\;,\;(x_2,y_2)...(x_i,y_i)...(x_N,y_N)\;\}\\ (X,Y)={ (x1,y1),(x2,y2)...(xi,yi)...(xN,yN)}
X是一个含有n维度(n个特征)的向量 (下标是h)
X⊑RnX=(ω1,ω2.....ωh....ωn) X\sqsubseteq\mathbb{R}^n\\X=(\omega_1,\omega_2.....\omega_h....\omega_n)\\ XRnX=(ω1ω2.....ωh....ωn)
这里注意,每个维度也存在多种的可能性的,现在我们规定每个维度ωh\omega_hωhStS_tSt种可能性。
意思就是,比如X是一篇文章,w就是其中的某一个单词,而S_t就是这个单词可能出现的情况。w1 表示第一个单词,这个单词可能取值会有 Today、Hi、Hello等可能性。
ωh=1,2...St...Sh \omega_h=1,2...S_t...S_h\\ ωh=1,2...St...Sh

Y是该变量X的分类情况,比如一篇文章的分类可能是小说、散文、诗歌等等。 (下标用j表示)
Y={ c1,c2....cj....ck} Y=\{c_1,c_2....c_j....c_k\}\\ Y={ c1,c2....cj....ck}

(二)朴素贝叶斯——多项式模型:

模型的目标:
首先这个模型解决的问题是分类问题。
朴素+贝叶斯:朴素的意思就是概率独立性,贝叶斯就是运用贝叶斯定理。合在一起就是朴素贝叶斯。
但是同逻辑回归、SVM不同,朴素贝叶斯模型是以概率角度出发去做出分类的。
分类的原理就是找一个概率最大化的思想。其实就是求argmaxP(Y∣X)argmax P(Y\vert X)argmaxP(YX) 在给我一个X(一篇文章)的情况下,求出他是哪个类型的概率最大。
比如它是散文的概率0.2、是小说的概率0.6、是诗歌的概率0.4。那么我们就说他是小说这个类别的。这就是这个模型的分类原理。

模型的求解:
根据上面说的,我们就是要求出argmaxP(Y∣X)argmax P(Y\vert X)argmaxP(YX)这个就行了,但是直接没办法求,我们需要用到贝叶斯公式。现在将贝叶斯公式代入:
P(Y=cj∣X=xi)=P(X=x∣Y=cj)×P(Y=cj)P(X=xi) P(Y=c_j\vert X=x_i)=\frac{P\left(X=x\vert Y=c_j\right)\times P\left(Y=c_j\right)}{P(X=x_i)} P(Y=cjX=xi)=P(X=xi)P(X=xY=cj)×P(Y=cj)
要算的就是 给出一篇文章xi,它是cj类型的概率。

这里 有几个名词:
先验概率:就是根据已有知识不用做推断和概率假设能得到的概率,比如有10篇文章按照6:4装在AB两个盒子里,A盒子里有三篇小说。先验就是问A中拿出一本小说类型的概率是多少。直接可以知道是3/5
后验概率:就是现在的知识得不到的,比如现在我们要求的,拿出一篇文章是小说问它是从A拿出来概率。
似然性:也就是上面式子分子的那个条件概率。

现在注意一个问题,我们是要找不同 jjj 值下的 P(Y=cj∣X=xi)P(Y=c_j\vert X=x_i)P(Y=cjX=xi)中最大的那一个概率,而每一个jjj 值下的 P(Y=cj∣X=xi)P(Y=c_j\vert X=x_i)P(Y=cjX=xi)按照贝叶斯公式展开的分母都是P(X=xi)P(X=x_i)P(X=xi),所以只用比较他们的分子大小即可。

要求的概率转化为求一个条件概率和一个先验:
P(X=x∣Y=cj)  P(Y=cj)P\left(X=x\vert Y=c_j\right)\;\\P\left(Y=c_j\right)P(X=xY=cj)P(Y=cj)
先验我们是知道的,现在来看看这个条件概率:
先把X按n维展开
P(X=x∣Y=cj)  =P(W1=ω1,W2=ω2....Wn=ωn  ∣  Y=cj)P\left(X=x\vert Y=c_j\right)\;=P(W_1=\omega_1,W_2=\omega_2....W_n=\omega_n\;\vert\;Y=c_j) P(X=xY=cj)=PW1=ω1,W2=ω2....Wn=ωnY=cj)
这里我们就有了大问题,w1,w2…wn这有n个维度呢。这里我们会得到很多参数,参数个数为:
K×∏h=1nShK\times\prod_{h=1}^nS_h\\ K×h=1nSh
因为每个维度都有很多可能性。这样给计算带来了巨大的麻烦。所以映入朴素的概念。
朴素就是一种假设,假设n维内 任意两个维度之间是无关的.ωi  ⊥ωj  (    i≠j  ;      i,j<n)\omega_{i\;}\perp\omega_j\;\left(\;\;i\neq j\;;\;\;\;i,j<n\right)\\ ωiωj(i=j;ij<n)

这里举个例子:
P(ABC)=P(A)P(B)P(C)P(ABC)=P(A)P(B)P(C)P(ABC)=P(A)P(B)P(C) 当且仅当ABC事件相互独立
这样子我们要求的参数个数就变成了:K∑h=1nShK\sum_{h=1}^nS_hKh=1nSh 不再是指数量级了

现在将要求的条件概率写成n维连乘的形式
P(X=x∣Y=cj)  =∏h=1nP(Wh=ωh  ∣  Y=cj) P\left(X=x\vert Y=c_j\right)\;=\prod_{h=1}^nP(W_h=\omega_h\;\vert\;Y=c_j)\\ P(X=xY=cj)=h=1nPWh=ωhY=

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值