最大熵原理
最大熵原理是概率模型学习或估计的一个准则,最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型就是最好的模型。
熵:
H(P)=−∑xP(x)logP(x)
H
(
P
)
=
−
∑
x
P
(
x
)
l
o
g
P
(
x
)
满足:
0≤H(P)≤log|X|
0
≤
H
(
P
)
≤
l
o
g
|
X
|
|X|是X的取值个数,当且仅当X的分布是 均匀分布时右边的等号成立,也就是说X服从均匀分布时,熵最大。
最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作,而熵是一个可以优化的数值指标。
最大熵模型
Pw(y|x)=1Zw(x)exp(∑i=1nwifi(x,y))
P
w
(
y
|
x
)
=
1
Z
w
(
x
)
e
x
p
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
Zw(x)=∑yexp(∑i=1nwifi(x,y)
Z
w
(
x
)
=
∑
y
e
x
p
(
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
约束最优化:
min−H(P)=∑x,yP˜(x)P(y|x)logP(y|x)
m
i
n
−
H
(
P
)
=
∑
x
,
y
P
~
(
x
)
P
(
y
|
x
)
l
o
g
P
(
y
|
x
)
s.t.P(fi)−P˜(fi)=0,i=1,2,...,n
s
.
t
.
P
(
f
i
)
−
P
~
(
f
i
)
=
0
,
i
=
1
,
2
,
.
.
.
,
n
∑yP(y|x)=1
∑
y
P
(
y
|
x
)
=
1
最大熵模型与逻辑斯蒂回归有类似的形式,它们又称为对数线性模型(log linear model),模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
《统计学习方法》
https://baike.baidu.com/item/%E6%9C%80%E5%A4%A7%E7%86%B5%E5%8E%9F%E7%90%86