从最大熵模型看logistic回归与softmax回归

关于李航一书中看到的最大熵模型,一开始从原理上的理解就开始不懂了,查了资料后总结了一些自认为能说服我的解释:

1.最大熵模型的实质与原理?为什么要挑选熵最大的模型?
答:
最大熵原理是1957年由E.T.Jaynes提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。其实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。

2.如何从李航一书的最大熵条件概率直接导出具体的logistic回归或者softmax回归的表达式?
答:
在这里插入图片描述
具体链接https://zhuanlan.zhihu.com/p/68423193

3.特征函数的期望值(关于经验分布的)是在这里插入图片描述
那么特征函数的期望值(关于模型的条件概率与经验分布)要写成
在这里插入图片描述
下面的期望代表了什么,P(x)P(y|x)=P(x,y),那P~(x)P(y|x)是个什么东西?它想表达什么?
答:准确来说应该写为
在这里插入图片描述

4.约束条件
在这里插入图片描述相等的数学含义和直观含义是什么?
答:
数学含义:使用样本期望作为真实期望的估计。
直观含义:根据公式
在这里插入图片描述
在这里插入图片描述
满足f(x,y)=1的样本占所有样本中的一部分,是局部,当人为的规定了特征函数之后,每一个特征函数期望的约束条件都代表了一个局部的P~(x,y)对P(x,y)的近似。这比没有特征函数直接使用所有样本的P~(x,y)对P(x,y)的近似要准确的多。比如有f(x=“下雨”,y=“不出去玩”)=1,否则f(x,y)=0。那么(x=“下雨”,y=“不出去玩”)的样本只占所有样本中的一部分,此时求和号只针对(x=“下雨”,y=“不出去玩”)的这部分样本。如果不加入假设,直接使用
在这里插入图片描述
其中,P~(x)可以作为P(x)的估计,但P~(x,y)直接作为P(x,y)的估计就没那么准确了,从而得出的P(y|x)约等于P~(x,y)/P~(x)就更加不准确了。而知道某些约束条件后,估计
在这里插入图片描述
就相当于对局部样本做更细致的估计,可以更加精确地估计出P(y|x)。
参考:最大熵模型的特征理解

5.在求解问题的拉格朗日乘子的构造中,
在这里插入图片描述

在这里插入图片描述

最优化的求解为什么能写成:
在这里插入图片描述
平日里使用拉格朗日求解出的解应该是极值点,但并不能确定是极大值还是极小值,那么此处为什么直接使用max_w?
答:这是凸优化问题里的“广义拉格朗日函数的极小极大问题”,这个问题的详细推导在附录C有写,讲得很清楚。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值