最大熵模型(Maximum Entropy Model, ME)理解

本文深入介绍了最大熵模型,从随机变量的概念出发,详细阐述了熵的定义及其与随机变量不确定性之间的关系。通过单约束和多约束最大熵的推导,证明了在概率和为1的条件下,熵最大时分布为均匀分布。同时,讨论了条件熵和最大熵模型在条件概率中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息论的创始人Shannon认为,“信息是指人们对事物理解的不确定性的降低或消除”,他称这种不确定的程度为信息熵。

可以这样理解,熵就是随机事件的不确定性,熵越小信息就越明确,而越不确定的事情熵就越大。比如,一个正常骰子6个面(1,2,3,4,5,6),投掷时每个面的概率相等;而另一个作弊骰子,也有6个面,在为”6”的那一面灌铅,投掷时永远出现“6”那一面。那么很明显投掷正常骰子的信息更为不确定,熵更大。而作弊骰子的信息更确定,熵更小。

下面我们将从随机变量开始一步一步慢慢理解熵。

1,随机变量(random variable)

1.1 随机变量(random variable)

什么是随机变量?

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的实值函数(一切可能的样本点)。如掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量。

随机变量   X{1,2,3,4,5,6}

      图(1)

 

1.2 随机变量概率(The probability of a random variable)

什么是随机变量的概率?

要全面了解一个随机变量,不但要知道它取哪些值,而且要知道它取这些值的规律,即要掌握它的概率分布。概率分布可以由分布函数刻画。若知道一个随机变量的分布函数,则它取任何值和它落入某个数值区间内的概率都可以求出。所以我们可以P(X=x)其中一种情况出现的概率。而P(X)我们叫它为概率分布函数。

如上述掷一颗骰子,X是均匀分布 X~U[1,6]。而P(X)的分布函数如下,也可以看出P(X=1)=1/6

              图(2)

又如某一地区的大学生身高为正态分布,若定义X为男性身高可能出现的值,则X也是一个随机变量,服从X~N(172.70, 8.01)。用P(X)表示随机变量的概率分布。

分布函数

                                  

概率分布图如下,而每个学生的身高都对应了一个概率,如P(X=1.7)就能得到相应的概率

              图(3)

 1.3 随机变量的期望(Expected value)

期望又如何表示,表示什么?

假设随机变量X有值x1概率为p1,X有值x2概率为p2,..X有值xk概率为pk。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值