MRF; BM; RBM

Markov Random Field
详细资料见Bishop的Pattern recognition and Machine Learning
Graphic Model分为有向图模型和无向图模型,无向图模型也叫做Markov networks 或 Markov random field.
我们以简单的Markov network,pairwise Markov networks来说明 Markov random field
一个简单的例子:
假设有四个学生,两个人一组做作业。A和C关系不好,所以不能在一起。B和D的作息时间不一致,也不能在一起,。最终下面4个对,(A,B);(B,C);(C,D);(D,A)。我们假设作业本身有一些问题,从而使得学生对资料由正确或者错误的理解。两个学生在做作业的过程中会对彼此产生影响。比如,A和B在一起做作业,如果A的理解有误,那么B可能也会理解错误,注意这种影响是双向的。因此,我们可以一个无向图代表这个模型。

简单的MRF模型
如何用数学语言描述这个图呢?
我们引入factors,如下所示
1 | 2 | 3述 | 4
这些factors 通常叫做infinity functions,compatibility functions or soft constraints. 那么这些factors代表什么意思呢?以 ϕ1 说明,这些值表示了A和B在一起做作业的local happiness。我们看到最高的值是30,表示两个人都对作业理解正确时,it is the happy assignment.当两个人对作业都理解错误时,happiness有所降低。
从其他的因子,可以得到以下信息:B ans C really like to agree with each other;C and D like to argue with each other all the time;A and D like to agree.
we are going to use the notion of product of factors an so here we are and we are going to take all these factors and we are going to multiply them together.
P˜(A,B,C,D)=ϕ1(A,B)ϕ2(B,C)ϕ3(C,D)ϕ4(D,A)
值如下所示:

这不是一个概率密度函数,因为它的值不是在0~1,因此需要normalized
P˜(A,B,C,D)=1/ZP(A,B,C,D)
Z称作the partition function, 即是图中所有值的和。
现在我们观察它的边缘概率分布函数P(A,B)
边缘概率分布函数
从图中,我们可以看出A0B1概率较高,怎么理解这个现象呢?
A agree with D相似,B agree with, D disagree with C。这三个都是很强的连接关系(值都是100),要使得整个网络做出平衡,那么只有牺牲较弱连接的AB,使得A disagree B,在 ϕ1 中A0B1具有较大的值,因此最终得到较大的边缘概率。
上面只是一个简单的pair-wise形式的,可以将其拓展为一般的形式。用 XC 来表示圈C中的变量,联合分布函数就可以写为potential function ϕC(xC) 的乘积,如下:
p(x)=1ZϕC(XC);Z=ϕC(XC)
如果我们限制potential function的值都为正,这样potential function就可以写为 ϕC(XC)=exp(E(XC)) , E(XC) 称为energy function.从而我们可以得到最终的联合分布函数:
p(x)=1Zexp(E(XC))

Boltzmann Machine
RBM在deep learning中有广泛的应用。
BM的图结构如下
BM
图中的节点可以分为hidden和visible节点,energy function表示如下:
E(v,h|θ)=bvchhWvvUvhVh
b与每个visible node相关;c与每个hidden node相关;W衡量visible node和hidden node相关性,U,V分别衡量visible nodes及hiden nodes之间的相关性。
Restricted Boltzmann Machine
取消了v和h变量的内部联系,就得到RBM的模型,如下图所示:
RBM
因此,能量函数简化为
E(v,h|θ)=bvchhWv
联合分布函数为
p(v,h)=exp(E(v,h))

v是observed variable, 我们得到v的边缘概率函数
p(v)=hexp(E(v,h))
根据d-separation分离定理有:
hihj|v,s.t.ij
vivj|h,s.t.ij
因此,我们得到条件概率函数
p(h|v)=ip(hi|v)
p(v|h)=ip(vi|h)
如果 hϵ(0,1) 那么可以得到:
p(hi|v)=p(hi,v)p(v)=exp(bv+cihi+hiwiv)hiˇexp(bv+cihiˇ+hiˇwiv)
=exp(cihi+hiwiv)hiˇexp(cihiˇ+hiˇwiv)
=exp(cihi+hiwiv)hiˇ=0exp(cihiˇ+hiˇwiv)+hiˇ=1exp(cihiˇ+hiˇwiv)
=exp(cihi+hiwiv)1+exp(ci+wiv)
最终我们有:
p(hi=1|v)=sigmoid(ci+wiv))
同理
p(vj=1|h)=sigmoid(bj+wjv))

参考
Boltzmann machine(wiki)
Restricted Boltzmann machine(wiki)
Deep Learning Document
webdancer的Blog
概率图模型Koller的Graphic Model公开课

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值