最大熵模型

最大熵原理是在概率模型学习中采用的一种准则,主张在满足所有约束条件下选择熵最大的模型。熵是衡量不确定性的一个指标,其定义为H(P) = -∑P(x)logP(x)。最大熵模型形式上与逻辑斯蒂回归相似,常用于分类任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最大熵原理

最大熵原理是概率模型学习或估计的一个准则,最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型就是最好的模型。

H(P)=xP(x)logP(x) H ( P ) = − ∑ x P ( x ) l o g P ( x )

满足:

0H(P)log|X| 0 ≤ H ( P ) ≤ l o g | X |

|X|是X的取值个数,当且仅当X的分布是 均匀分布时右边的等号成立,也就是说X服从均匀分布时,熵最大。

最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作,而熵是一个可以优化的数值指标。

最大熵模型

Pw(y|x)=1Zw(x)exp(i=1nwifi(x,y)) P w ( y | x ) = 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) )

Zw(x)=yexp(i=1nwifi(x,y) Z w ( x ) = ∑ y e x p ( ∑ i = 1 n w i f i ( x , y )

约束最优化

minH(P)=x,yP˜(x)P(y|x)logP(y|x) m i n − H ( P ) = ∑ x , y P ~ ( x ) P ( y | x ) l o g P ( y | x )

s.t.P(fi)P˜(fi)=0,i=1,2,...,n s . t . P ( f i ) − P ~ ( f i ) = 0 , i = 1 , 2 , . . . , n

yP(y|x)=1 ∑ y P ( y | x ) = 1

最大熵模型与逻辑斯蒂回归有类似的形式,它们又称为对数线性模型(log linear model),模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

《统计学习方法》

https://baike.baidu.com/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E5%8E%9F%E7%90%86

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值