最大熵模型(二)

最大熵模型 - 最大熵模型的学习

对于给定的训练数据集T={(x1,y1),(x2,y2),,(xN,yN)}T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)}以及特征函数fi(x,y)fi(x,y),最大熵模型的学习等价于约束最优化问题:

maxpCH(p)s.t.Ep(fi)yp(y|x)=x,yp˜(x)p(y|x)logp(y|x)=Ep˜(fi)=1maxp∈CH(p)=−∑x,yp~(x)p(y|x)logp(y|x)s.t.Ep(fi)=Ep~(fi)∑yp(y|x)=1

将求最大值改为等价求最小值问题:
minpCH(p)s.t.Ep(fi)yp(y|x)=sumx,yp˜(x)p(y|x)logp(y|x)=Ep˜(fi)=1minp∈C−H(p)=sumx,yp~(x)p(y|x)logp(y|x)s.t.Ep(fi)=Ep~(fi)∑yp(y|x)=1

引进拉格朗日乘子w0,w1,,wNw0,w1,⋅⋅⋅,wN,定义拉格朗日函数:
L(P,w)=H(p)+w0(1yp(y|x))+i=1nwi(Ep˜(fi)Ep(fi))=x,yp˜(x)p(y|x)logp(y|x)+w0(1yp(y|x))+i=1nwi(x,yp˜(x,y)fi(x,y)x,yp˜(x)p(y|x)fi(x,y))L(P,w)=−H(p)+w0(1−∑yp(y|x))+∑i=1nwi(Ep~(fi)−Ep(fi))=∑x,yp~(x)p(y|x)logp(y|x)+w0(1−∑yp(y|x))+∑i=1nwi(∑x,yp~(x,y)fi(x,y)−∑x,yp~(x)p(y|x)fi(x,y))

最优化问题的原始问题是:
minPCmaxwL(P,w)minP∈CmaxwL(P,w)

对偶问题为:
maxwminPCL(P,w)maxwminP∈CL(P,w)

因为拉格朗日函数L(P,w)L(P,w)PP的凸函数,原始问题与对偶问题的解是等价的。
首先计算内部计算极小值,拉个朗日函数L(P,w)P(Y|X)P(Y|X)的偏倒数:
L(P,w)P=x,yp˜(x)(1+logp(y|x))w0i=1nwi(x,yp˜(x)fi(x,y))=x,yp˜(x)(1+logp(y|x))x,yp˜(x)w0x,yp˜(x)(i=1nwifi(x,y))=x,yp˜(x)(1+logp(y|x)w0i=1Nwifi(x,y))∂L(P,w)∂P=∑x,yp~(x)(1+logp(y|x))−w0−∑i=1nwi(∑x,yp~(x)fi(x,y))=∑x,yp~(x)(1+logp(y|x))−∑x,yp~(x)w0−∑x,yp~(x)(∑i=1nwifi(x,y))=∑x,yp~(x)(1+logp(y|x)−w0−∑i=1Nwifi(x,y))

注:w0=w0×1=w0xp˜(x)=x,yp˜(x)w0w0=w0×1=w0∑xp~(x)=∑x,yp~(x)w0
令偏导数为0,在p˜(x)>0p~(x)>0的情况下,有:
p(y|x)=exp(i=1nwifi(x,y)+w01)=exp(ni=1wifi(x,y))exp(1w0)p(y|x)=exp(∑i=1nwifi(x,y)+w0−1)=exp(∑i=1nwifi(x,y))exp(1−w0)

由于yp(y|x)=1∑yp(y|x)=1,得:
yexp(ni=1wifi(x,y))exp(1w0)=1∑yexp(∑i=1nwifi(x,y))exp(1−w0)=1

则:
exp(1w0)=yexp(i=1nwifi(x,y))exp(1−w0)=∑yexp(∑i=1nwifi(x,y))

内部极大值得解为:
Pw(y|x)=1Zwexp(i=1nwifi(x,y)))Pw(y|x)=1Zwexp(∑i=1nwifi(x,y)))

其中:
Zw(x)=yexp(i=1nwifi(x,y))Zw(x)=∑yexp(∑i=1nwifi(x,y))

Zw(x)Zw(x)称为规范化因子;fi(x,y)fi(x,y)为特征值函数;wiwi为特征权值;Pw(y|x)Pw(y|x)为最大熵模型。之后再求解外部极大值,用ww∗表示其解,即:
w=argmaxwΨ(w)w∗=argmaxwΨ(w)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值