机器学习(八):最大熵模型

本文介绍了最大熵模型的基本原理,指出在所有可能的概率模型中,熵最大的模型是最优的。详细阐述了最大熵模型的定义,解释了如何在满足约束条件下选择熵最大的模型。通过实例展示了最大熵模型的学习过程,包括约束最优化问题的转化和拉格朗日乘子法的应用,最终得出最大熵模型的参数解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最大熵原理

最大熵原理认为,学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型

假设离散随机变量X的概率分布式P(X),其熵为:

熵满足下列不等式:

其中,|x|是x的取值个数,当且仅当x的分布式均匀分布时右边的等号成立。i.e.  当X服从均匀分布时,熵最大

直观的,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,哪些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。等可能不容易操作,熵就是一个可优化的数值指标

例子:

解:首先,这些概率值必然和为1,即:

满足这个约束条件的概率分布有无穷多个,如果没有任何其他信息,仍要对概率分布进行估计,一个办法就是认为这个分布中取各个值的概率是相等的:

如果接下来又添加了一个可用信息 :

满足这两个约束条件的概率分布仍然有无穷多个,在缺少其他信息的情况下,可以认为A与B是等概率的,C,D,E是等概率的,于是:

最大熵模型的定义

假设分类模型是一个条件概率分布P(Y|X),X表示输入,Y 表示输出,这个模型表示的是对于给定的输入X,以条件概率P(Y|X)输出Y,给定一个训练数据集:

其中,N为训练集中样本个数;

学习的目的:利用最大熵原理,选择一个最好的分类模型;例如:二分类问题:得到的分类器P(Y|X),可以使得对于任何给定的样本x∈X,都可以计算得到P(y=1|x)和P(y=0|x)

给定了训练集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,分别以\large \widetilde{P}(X,Y)\large \widetilde{P}(X)表示。这里,

其中,表示训练数据中样本(x,y)出现的频数,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值