统计学习模型——最大熵模型

L_earning_

于 2022-03-25 15:01:57 发布

阅读量406

点赞数

分类专栏：统计学习方法文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/L_earning_/article/details/123671496

版权

统计学习方法专栏收录该内容

6 篇文章

订阅专栏

本文介绍最大熵模型的基本原理，包括最大熵原理的概念、模型的基础及其学习过程。详细解释了如何利用约束条件找到熵最大的模型，并介绍了改进的迭代尺度法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、最大熵原理

在满足约束条件的模型集合中选取熵最大的模型。最大熵原理通过熵的最大化来表示等可能性

二、最大熵模型

2.1 模型基础

给定一个训练数据集 $T=\{(x_1,y_1),\cdots,(x_N,y_N)\}$ 学习基于最大熵原理的最优分类模型
用 $\tilde{P}(X,Y),\tilde{P}(X)$ 表示联合分布 $P (X, Y)$ 的经验分布和边缘分布 $P (X)$ 的经验分布
用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之间的某一事实，即模型学习的约束条件
特征函数 $f (x, y)$ 关于经验分布 $\tilde{P}(X,Y)$ 的期望，用 $E_{\tilde{P}}(f)$ 表示；关于联合分布 $P (X, Y)$ 的期望，用 $E_{P}(f)$ 表示

2.2 模型的学习过程

如果模型能够获取训练数据中的信息，则两个期望相等，即 $E_{P}(f_i)=E_{\tilde{P}}(f_i)，i=1,\cdots,n$ $\sum_{y}P(y|x)=1$ 其中 $\mathcal{C}$ 为满足约束条件的模型的集合
约束条件(熵最大)： $\underset {P\in\mathcal{C}}{max}-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)$ 等价于 $\underset{P\in\mathcal{C}}{min}\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)$

原始问题的解等价于对偶问题的解，即 $\underset {P\in\mathcal{C}}{min}\underset {\omega}{max}L(P,\omega)等价于\underset {\omega}{max}\underset {P\in\mathcal{C}}{min}L(P,\omega)$

引进拉格朗日乘子 $\omega_0,\omega_1,\cdots,\omega_n$ ，定义拉格朗日函数
$\begin{aligned} L(P,\omega) &=-H(P)+\omega_0(1-\sum_{y}P(y|x))+\sum_{i=1}^n\omega_i(E_{\tilde{P}}(f_i))-E_{P}(f_i)) \\ &=\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)+\omega_0(1-\sum_{y}P(y|x))\\ &+\sum_{i=1}^n\omega_i(\sum_{x,y}\tilde{P}(x,y)f_i(x,y)-\sum_{x,y}\tilde{P}(x)P(y|x)f_i(x,y)) \end{aligned}$

2.2.1 求解对偶问题内部的极小化问题 $\underset {P\in\mathcal{C}}{min}L(P,\omega)$

记 $\psi(\omega)=\underset {P\in\mathcal{C}}{min}L(P,\omega)=L(P_{\omega},\omega)$ ，将对应的解记为 $P_{\omega}=P_{\omega}(y|x)$
已知： $\tilde{P}(x)>0$ 以及 $\sum_{y}P(y|x)=1$ ，再求 $L(P,\omega)$ 对 $P (y ∣ x)$ 的偏导数，并令其等于0，可得： $P_{\omega}(y|x)=\frac{1}{Z_{\omega}(x)}exp(\sum_{i=1}^n\omega_if_i(x,y))$ 其中 $Z_{\omega}(x)=\sum_{y}exp(\sum_{i=1}^n\omega_if_i(x,y))$ ，被称为规范化因子

2.2.2 求解对偶问题外部的极大化问题 $\underset {\omega}{max}\psi(\omega)$

对偶问题的极大化等价于最大熵模型的极大似然函数，即 $\psi(\omega)=L_{\tilde{P}}(P_\omega)$

$L_{\tilde{P}}(P_\omega)=log\prod_{x,y}P(y|x)^{{\tilde{P}}(x,y)}=\sum_{x,y}\tilde{P}(x,y)log(x,y)$
$\psi(\omega)=\sum_{x,y}\tilde{P}(x)P_{\omega}(y|x)logP(y|x)$
- 将两个约束条件 $\sum_{y}P(y|x)=1$ 以及 $E_{P}(f_i)=E_{\tilde{P}}(f_i)，i=1,\cdots,n$ 代入至 $L(P,\omega)$ 中，即可得到上式的 $\psi(\omega)$

因此，模型的学习就是给定条件下，模型进行极大似然估计

2.3 模型的最优化问题

改进的迭代尺度法

参考：《统计学习方法》李航著

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。