最大熵模型

原创于 2018-08-23 00:47:36 发布 · 684 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #最大熵模型 #熵 #对数线性模型 #极大似然估计

机器学习专栏收录该内容

48 篇文章

订阅专栏

最大熵原理是在概率模型学习中采用的一种准则，主张在满足所有约束条件下选择熵最大的模型。熵是衡量不确定性的一个指标，其定义为H(P) = -∑P(x)logP(x)。最大熵模型形式上与逻辑斯蒂回归相似，常用于分类任务。

最大熵原理

最大熵原理是概率模型学习或估计的一个准则，最大熵原理认为在所有可能的概率模型（分布）的集合中，熵最大的模型就是最好的模型。

熵：

H (P) = - \sum x P (x) l o g P (x)

$H(P) = - \sum_x P(x)logP(x)$
满足：

0 \leq H (P) \leq l o g | X |

$0 \le H(P) \le log|X|$
|X|是X的取值个数，当且仅当X的分布是 均匀分布时右边的等号成立，也就是说X服从均匀分布时，熵最大。

最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作，而熵是一个可以优化的数值指标。

最大熵模型

P w (y | x) = 1 Z w ( x ) e x p (\sum i = 1 n w i f i (x, y))

$P_w(y|x) = \frac{1}{Z_w(x)}exp(\sum_{i=1}^nw_if_i(x,y))$

Z w (x) = \sum y e x p (\sum i = 1 n w i f i (x, y)

$Z_w(x) = \sum_y exp(\sum_{i=1}^nw_if_i(x,y)$

约束最优化：

m i n - H (P) = \sum x, y P ˜ (x) P (y | x) l o g P (y | x)

$min -H(P) = \sum_{x,y} \widetilde{P}(x)P(y|x)logP(y|x)$

s . t . P (f i) - P ˜ (f i) = 0, i = 1, 2, . . ., n

$s.t. P(f_i) - \widetilde{P}(f_i) = 0, i=1,2,...,n$

\sum y P (y | x) = 1

$\sum_{y}P(y|x) = 1$

最大熵模型与逻辑斯蒂回归有类似的形式，它们又称为对数线性模型（log linear model），模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

《统计学习方法》

https://baike.baidu.com/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E5%8E%9F%E7%90%86

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。