几个常用机器学习算法 - 最大熵模型

最新推荐文章于 2025-05-31 01:23:58 发布

原创

最新推荐文章于 2025-05-31 01:23:58 发布 · 9.2k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#最大熵 #原理 #理解 #机器学习

本文介绍了最大熵模型的基本原理，强调了在已知约束条件下选择熵最大的模型作为最佳推断。最大熵模型是一种在满足特定约束下保留最多不确定性的概率模型。文章详细阐述了最大熵模型的表示、学习过程，以及如何通过拉格朗日乘子法解决约束最优化问题，最终求得最大熵模型的参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：xg123321123

出处：http://blog.youkuaiyun.com/xg123321123/article/details/54286514

熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0。
如果没有外界干扰，随机变量总是趋向于无序，在经过足够时间的稳定演化，它应该能够达到的最大程度的熵。
假设离散随机变量 $X$ 的概率分布是 $P(X)$ ，则其熵是

H (P) = - \sum x P (x) l o g P (x)

$H(P)=-\sum_x{P(x)logP(x)}$
且熵满足下列不等式：

0 \leq H (P) \leq l o g | X |

$0\le H(P)\le log|X|$ 其中

|X| $|X|$ 是

X $X$ 的取值个数，当且仅当

X $X$ 的分布是均匀分布时右边的等号成立，这就是说，当

X $X$ 服从均匀分布时，熵最大。

1 最大熵原理

为了准确的估计随机变量的状态，我们一般习惯性最大化熵，认为在所有可能的概率模型（分布）的集合中，熵最大的模型是最好的模型。
换言之，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，其原则是承认已知事物（知识），且对未知事物不做任何假设，没有任何偏见。

例如，投掷一个骰子，如果问”每个面朝上的概率分别是多少”，你会说是等概率，即各点出现的概率均为1/6。因为对这个”一无所知”的色子，什么都不确定，而假定它每一个朝上概率均等则是最合理的做法。
从投资的角度来看，这是风险最小的做法，而从信息论的角度讲，就是保留了最大的不确定性，也就是说让熵达到最大。

所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

2 无偏原则

下面抄来一个有关最大熵模型的文章中都喜欢举的例子。

例如，一篇文章中出现了“学习”这个词，那这个词是主语、谓语、还是宾语呢？换言之，已知“学习”可能是动词，也可能是名词，故“学习”可以被标为主语、谓语、宾语、定语等等。

令x1表示“学习”被标为名词， x2表示“学习”被标为动词。
令y1表示“学习”被标为主语， y2表示被标为谓语， y3表示宾语， y4表示定语。

且这些概率值加起来的和必为1，即:

p (x 1) + p (x 2) = 1

$p(x_1)+p(x_2)=1$

p (y 1) + p (y 2) + p (y 3) + p (y 4) = 1

$p(y_1)+p(y_2)+p(y_3)+p(y_4)=1$

则根据无偏原则，认为这个分布中取各个值的概率是相等的，故得到：

p (x 1) = p (x 2) = 0.5

$p(x_1)=p(x_2)=0.5$

p (y 1) = p (y 2) = p (y 3) = p (y 4) = 0.25

$p(y_1)=p(y_2)=p(y_3)=p(y_4)=0.25$

因为没有任何的先验知识，所以这种判断是合理的。如果有了一定的先验知识呢？
即进一步，若已知：“学习”被标为定语的可能性很小，只有0.05，即

p (y 4) = 0.05

$p(y_4)=0.05$

剩下的依然根据无偏原则，可得：

p (x 1) = p (x 2) = 0.5

$p(x_1)=p(x_2)=0.5$

p (y 1) = p (y 2) = p (y 3) = 0.95 3

$p(y_1)=p(y_2)=p(y_3)=\frac{0.95}{3}$

再进一步，当“学习”被标作名词x1的时候，它被标作谓语y2的概率为0.95，即

p (y 2 | x 1) = 0.95

$p(y_2|x_1)=0.95$

此时仍然需要坚持无偏见原则，使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布？

熵的理论中，在完全无约束状态下，均匀分布等价于熵最大（有约束的情况下，不一定是概率相等的均匀分布。 比如，给定均值和方差，熵最大的分布就变成了正态分布 ）。
于是，问题便转化为了：计算X和Y的分布，使得H(Y|X)达到最大值，并且满足下述条件：

p (x 1) + p (x 2) = 1

$p(x_1)+p(x_2)=1$

p (y 1) + p (y 2) + p (y 3) + p (y 4) = 1

$p(y_1)+p(y_2)+p(y_3)+p(y_4)=1$

p (y 4) = 0.05

$p(y_4)=0.05$

p (y 2 | x 1) = 0.95

$p(y2|x1)=0.95$

因此，也就引出了最大熵模型的本质，它要解决的问题就是已知X，计算Y的概率，且尽可能让Y的概率最大（实践中，X可能是某单词的上下文信息，Y是该单词翻译成me，I，us、we的各自概率），从而根据已有信息，尽可能最准确的推测未知信息，这就是最大熵模型所要解决的问题。

相当于已知X，计算Y的最大可能的概率，转换成公式，便是要最大化下述式子H(Y|X)：