最大熵模型和朴素贝叶斯的区别

本文深入探讨最大熵模型的原理,解释其如何通过假设条件下的等概率原则实现熵的最大化,对比了最大熵模型与最小熵原理的关系,并分析了其与朴素贝叶斯模型的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最大熵模型就是假设有些条件已知,未知的几个随机变量希望他们是等概率的,这样得到的熵最大,换句话说鸡蛋不要放在同一个篮子里。

先说条件熵为啥定义成这个样子,实际上就是某些条件已知,在这些条件上分别算熵(条件上当然是条件概率),最后加起来,用公式表示就是:
H(Y∣X)=∑i=1mP(X=xi)H(Y∣X=xi)=∑i=1mP(X=xi)∑j=1nP(yj∣xi)log(P(yi∣xi))H(Y|X)=\sum_{i=1}^mP(X=x_i)H(Y|X=x_i)\\ =\sum_{i=1}^mP(X=x_i)\sum_{j=1}^nP(y_j|x_i)log(P(y_i|x_i))H(YX)=i=1mP(X=xi)H(YX=xi)=i=1mP(X=xi)j=1nP(yjxi)log(P(yixi))
所以,在李航老师书上的定义就是,对于训练集上的数据T={{x1,y1},{x1,y1},...,{xn,yn}}T=\{\{x_1,y_1\}, \{x_1,y_1\},...,\{x_n,y_n\}\}T={{x1,y1},{x1,y1},...,{xn,yn}}以及特征函数fi(x,y)f_i(x,y)fi(x,y),定义如下表达式,其中P~(x)\widetilde{P}(x)P(x)表示训练集上的经验分布

max⁡H(P)=−∑x,yP~(x)P(y∣x)logP(y∣x)s.t.Ep(fi)=EP~(fi),i=1,2..n∑yP(y∣x)=1\max H(P)=-\sum_{x,y}\widetilde{P}(x)P(y|x)logP(y|x) s.t. \\ E_p(f_i)=E_{\widetilde{P}}(f_i), i=1,2..n\\ \sum_yP(y|x)=1 maxH(P)=x,yP(x)P(yx)logP(yx)s.t.Ep(fi)=EP(fi),i=1,2..nyP(yx)=1
这个上拉格朗日乘数法,最后可以得到
Pw(y∣x)=exp(∑i=1nwifi(x,y))∑yexp(∑i=1nwifi(x,y))P_w(y|x)=\frac{exp(\sum_{i=1}^nw_if_i(x,y))}{\sum_yexp({\sum_{i=1}^nw_if_i(x,y))}}Pw(yx)=yexp(i=1nwifi(x,y))exp(i=1nwifi(x,y))
因此,最终x和y构成了一个最大团,用概率图表示就是

由于最开始建模的时候是直接用条件熵建的,因此还是判别式模型。

对比一下最大熵模型和最小熵原理的关系:任选一个孤立系统,达到平衡的时候它的熵一定是最大的(最大熵原理),达到平衡之后它的熵增一定是最小的(最小熵产生)
以下转载自: https://kexue.fm/archives/5448
在这里插入图片描述


朴素贝叶斯由训练数据学习联合概率分布P(X,Y),目标是后验概率P(Y|X)最大化(李航老师书里用条件期望的方式证明了期望风险最小化等价于后验概率最大化),后验概率P(Y|X)=最大似然P(X|Y)*先验概率P(Y)/P(X),X可以看做这次实验的结果,Y可以看做要求的模型的参数。因此先验概率P(Y)一般是某个分布、例如Beta分布等。最大似然P(X|Y)就是给定模型下,最终这事发生的概率最大,挑可能性最大对应的参数。P(X)是这次实验里得到的结果,P(X|Y)*P(Y)=P(X,Y)是联合概率分布,因此朴素贝叶斯是生成式模型。

P(Y|X)=P(X|Y)P(Y)/P(X),但是P(X|Y)太难求了,所以假设了条件独立,也就是arg max⁡yiP(yi)∏jP(xj∣yj)\argmax_{y_i}{P(y_i)\prod_jP(x_j|y_j) }argmaxyiP(yi)jP(xjyj),因此朴素贝叶斯从这个表达式来看,对应的概率图模型是
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值