第十一章条件随机场.11.1 导论

本文深入探讨概率无向图模型,包括马尔科夫随机场的定义,介绍了局部、全局马尔科夫性,并通过团的概念阐述了因子分解。接着,文章详细讲解了条件随机场,定义了其条件概率分布特性,并展示了线性链条件随机场的参数化形式。此外,还提及了条件随机场在概率计算、学习和预测中的关键算法,如前向-后向、维特比算法和拟牛顿法。


本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式

前言

任务简介:理解条件随机场和相应的算法。该算法可以用于标注问题。通过学习第1节,了解概率无向图的定义和因子分解形式;了解线性链条件随机场的定义及三种形式;理解条件概率和期望的前向-后向算法;掌握条件随机场的预测算法。通过学习第2节,掌握拟牛顿法;通过学习第3节,掌握条件随机场的矩阵形式。
学习目标:
0.导读视频。
1.理解概率无向图。
2.掌握线性链条件随机场模型参数形式和矩阵形式。
3.掌握条件概率和期望的前向-后向算法。
4.掌握拟牛顿法优化的目标函数。
5.掌握预测的维特比算法。
在这里插入图片描述

概率无向图模型

概率图模型:
有向图(贝叶斯网络)
无向图(马尔科夫随机场)
概率无向图模型(probabilistic undirected graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。
图和无向图的概念在数据结构里面有,不写了。
马尔科夫性:
成对马尔科夫性:设 u u u v v v是无向图 G G G中任意两个没有边连接的结点,结点 u u u v v v分别对应随机变量 Y u Y_u Yu Y v Y_v Yv,。其他所有结点为 O O O,对应的随机变量组是 Y O Y_O YO。成对马尔可夫性是指给定随机变量组 Y O Y_O YO的条件下随机变量 Y u Y_u Yu Y v Y_v Yv是条件独立的,即:
P ( Y u , Y v ∣ Y O ) = P ( Y u ∣ Y o ) P ( Y v ∣ Y O ) P(Y_u,Y_v|Y_O)=P(Y_u|Y_o)P(Y_v|Y_O) P(Yu,YvYO)=P(YuYo)P(YvYO)
在这里插入图片描述
上图中 u v uv uv没有直接边相连。
局部马尔可夫性:设 v ∈ V v\in V vV是无向图 G G G中任意一个结点, W W W是与 v v v有边连接的所有结点, O O O v v v W 以 W以 W外的其他所有结点。 v v v表示的随机变量是 Y v Y_v Yv W W W表示的随机变量组是 Y W Y_W YW O O O表示的随机变量组是 Y O Y_O YO。局部马尔可夫性是指在给定随机变量组 Y W Y_W YW的条件下随机变量 Y v Y_v Yv与随机变量组 Y O Y_O YO是独立的,即:
P ( Y v , Y O ∣ Y W ) = P ( Y v ∣ Y W ) P ( Y O ∣ Y W ) P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W) P(Yv,YOYW)=P(YvYW)P(YOYW)
P ( Y O ∣ Y W ) > 0 P(Y_O|Y_W)>0 P(YOYW)>0时,上式等价于:
P ( Y v , Y O ∣ Y W ) = P ( Y v ∣ Y W , Y O ) P(Y_v,Y_O|Y_W)=P(Y_v|Y_W,Y_O) P(Yv,YOYW)=P(YvYW,YO)
在这里插入图片描述
形象理解就是当前节点 v v v与被其邻接节点 W W W环绕之外的所有节点 O O O是相互独立的。

全局马尔科夫性:设结点集合 A A A B B B是在无向图 G G G中被结点集合 C C C分开的任意结点集合,如图11.2所示。结点集合 A A A B B B C C C所对应的随机变量组分别是 Y A Y_A YA Y B Y_B YB Y C Y_C YC。全局马尔可夫性是指给定随机变量组 Y C Y_C YC条件下随机变量组 Y A Y_A YA Y B Y_B YB是条件独立的,即
P ( Y A , Y B ∣ Y C ) = P ( Y A ∣ Y C ) P ( Y B ∣ Y C ) P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C) P(YA,YBYC)=P(YAYC)P(YBYC)
在这里插入图片描述
意思是将图中圈C内两个随机变量取出,则圈C左边变量与右边变量相互独立。
以上三个马尔科夫性等价。
由此可以给出概率无向图定义:设有联合概率分布 P ( Y ) P(Y) P(Y),由无向图 G = ( V , E ) G=(V,E) G=(V,E)表示,在图 G G G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布 P ( Y ) P(Y) P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型(probability undirected graphical model),或马尔可夫随机场(Markov random field)。

图中有边相连的节点称为团,图中拥有最多节点的团称为最大团,注意把团的概念和连通图概念区分开来。
例如下图中有团: { Y 1 , Y 2 } , { Y 1 , Y 3 } , { Y 2 , Y 3 } , { Y 3 , Y 4 } , { Y 2 , Y 4 } , { Y 1 , Y 2 , Y 3 } , { Y 2 , Y 3 , Y 4 } \{Y_1,_Y2\},\{Y_1,_Y3\},\{Y_2,_Y3\},\{Y_3,_Y4\},\{Y_2,_Y4\},\{Y_1,Y_2,Y_3\},\{Y_2,Y_3,Y_4\} {Y1,Y2},{Y1,Y3},{Y2,Y3},{Y3,Y4},{Y2,Y4},{Y1,Y2,Y3},{Y2,Y3,Y4},其中最大团是: { Y 1 , Y 2 , Y 3 } , { Y 2 , Y 3 , Y 4 } \{Y_1,Y_2,Y_3\},\{Y_2,Y_3,Y_4\} {Y1,Y2,Y3},{Y2,Y3,Y4}

在这里插入图片描述
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。例如上图的联合概率分布可以表示为:
P ( Y ) = 1 Z ψ 1 ( Y 1 , Y 2 , Y 3 ) ⋅ ψ 2 ( Y 2 , Y 3 , Y 4 ) P(Y)=\cfrac{1}{Z}\psi_1(Y_1,Y_2,Y_3)\cdot\psi_2(Y_2,Y_3,Y_4) P(Y)=Z1ψ1(Y1,Y2,Y3)ψ2(Y2,Y3,Y4)
1 Z \cfrac{1}{Z} Z1是归一化因子。
通用形式可以写为:
P ( Y ) = 1 Z ∏ C Ψ C ( Y C ) Z = ∑ Y ∏ C Ψ C ( Y C ) Ψ C ( Y C ) = exp ⁡ { − E ( Y C ) } P(Y)=\cfrac{1}{Z}\prod_C\Psi_C(Y_C)\\ Z=\sum_Y\prod_C\Psi_C(Y_C)\\ \Psi_C(Y_C)=\exp\{-E(Y_C)\} P(Y)=Z1CΨC(YC)Z=YCΨC(YC)ΨC(YC)=exp{E(YC)}
其中, C C C是无向图的最大团, Y C Y_C YC C C C的结点对应的随机变量, Ψ C ( Y C ) \Psi_C(Y_C) ΨC(YC) C C C上定义的严格正函数(势函数或能量函数),乘积是在无向图所有的最大团上进行的。

条件随机场的定义与形式

条件随机场的定义:
X X X Y Y Y是随机变量, P ( Y ∣ X ) P(Y|X) P(YX)是在给定 X X X的条件下 Y Y Y的条件概率分布。若随机变量 Y Y Y构成一个由无向图 G = ( V , E ) G=(V,E) G=(V,E)表示的马尔可夫随机场,即
P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w ∼ v ) P(Y_v|X,Y_w,w\ne v)=P(Y_v|X,Y_w,w\sim v) P(YvX,Yw,w=v)=P(YvX,Yw,wv)
对任意结点 v v v成立,则称条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)为条件随机场。
上式中 v v v表示任意一个节点, w w w表示除了 v v v的所有节点, w ∼ v w\sim v wv表示所有与 v v v直接相连的节点。
该公式表示:对任意一个节点 v v v,给定其他所有节点时 v v v的分布等于给定与它直接相连的节点时 v v v的分布。(实际上就是局部马尔科夫性)
条件随机场的参数化形式:
P ( y ∣ x ) = 1 Z ( x ) exp ⁡ ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l u l s l ( y i , x , i ) ) P(y|x)=\cfrac{1}{Z(x)}\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}u_ls_l(y_i,x,i)\right) P(yx)=Z(x)1expi,kλktk(yi1,yi,x,i)+i,lulsl(yi,x,i)
其中 x x x相当于马尔科夫里面的观测链, t k t_k tk为转移特征, s l s_l sl为状态特征, λ k , u l \lambda_k,u_l λk,ul表示权值。
Z ( x ) = ∑ y exp ⁡ ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l u l s l ( y i , x , i ) ) Z(x)=\sum_y\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}u_ls_l(y_i,x,i)\right) Z(x)=yexpi,kλktk(yi1,yi,x,i)+i,lulsl(yi,x,i)
这里由于图是链式的:
在这里插入图片描述

因此最大团的形式是 y i − 1 , y i y_{i-1},y_i yi1,yi
关于条件随机场的简化形式就不写了,稍微提一下思路,先把 ∑ i , k \sum_{i,k} i,k中的k分解出去,然后再写成向量相乘的形式,因为:
a = ( x 1 , y 1 ) , b = ( x 2 , y 2 ) a ⋅ b = x 1 x 2 + y 1 y 2 a=(x1,y1),b=(x2,y2) \\a·b=x1x2+y1y2 a=(x1,y1),b=(x2,y2)ab=x1x2+y1y2

条件随机场的相关问题

1.条件随机场的概率计算问题:
利用条件随机场的矩阵形式,计算: P ( Y = y i ∣ x ) P(Y=y_i|x) P(Y=yix)
方法:前向-后向算法
2.条件随机场的学习算法:
求对数线性模型参数 w w w
P ( y ∣ x ) = 1 Z ( x ) exp ⁡ ∑ k − 1 K w k f k ( y , x ) P(y|x)=\cfrac{1}{Z(x)}\exp \sum_{k-1}^Kw_kf_k(y,x) P(yx)=Z(x)1expk1Kwkfk(y,x)
方法:改进的迭代尺度法
拟牛顿法
3.条件随机场的预测算法
标注问题
y ∗ = a r g max ⁡ y P w ( y ∣ x ) y^*=arg\underset{y}{\max}P_w(y|x) y=argymaxPw(yx)
维特比算法(动态规划)

总结

1.概率无向图模型是由无向图表示的联合概率分布。
2.条件随机场是给定输入随机变量X的条件下,输出随机变量Y的条件概率分布模型。
3.线形链条件随机场的概率计算通常利用前向-后向算法。
4.线形链条件随机场的一个重要应用是标注。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值