本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式
前言
任务简介:理解条件随机场和相应的算法。该算法可以用于标注问题。通过学习第1节,了解概率无向图的定义和因子分解形式;了解线性链条件随机场的定义及三种形式;理解条件概率和期望的前向-后向算法;掌握条件随机场的预测算法。通过学习第2节,掌握拟牛顿法;通过学习第3节,掌握条件随机场的矩阵形式。
学习目标:
0.导读视频。
1.理解概率无向图。
2.掌握线性链条件随机场模型参数形式和矩阵形式。
3.掌握条件概率和期望的前向-后向算法。
4.掌握拟牛顿法优化的目标函数。
5.掌握预测的维特比算法。

概率无向图模型
概率图模型:
有向图(贝叶斯网络)
无向图(马尔科夫随机场)
概率无向图模型(probabilistic undirected graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。
图和无向图的概念在数据结构里面有,不写了。
马尔科夫性:
成对马尔科夫性:设
u
u
u和
v
v
v是无向图
G
G
G中任意两个没有边连接的结点,结点
u
u
u和
v
v
v分别对应随机变量
Y
u
Y_u
Yu和
Y
v
Y_v
Yv,。其他所有结点为
O
O
O,对应的随机变量组是
Y
O
Y_O
YO。成对马尔可夫性是指给定随机变量组
Y
O
Y_O
YO的条件下随机变量
Y
u
Y_u
Yu和
Y
v
Y_v
Yv是条件独立的,即:
P
(
Y
u
,
Y
v
∣
Y
O
)
=
P
(
Y
u
∣
Y
o
)
P
(
Y
v
∣
Y
O
)
P(Y_u,Y_v|Y_O)=P(Y_u|Y_o)P(Y_v|Y_O)
P(Yu,Yv∣YO)=P(Yu∣Yo)P(Yv∣YO)

上图中
u
v
uv
uv没有直接边相连。
局部马尔可夫性:设
v
∈
V
v\in V
v∈V是无向图
G
G
G中任意一个结点,
W
W
W是与
v
v
v有边连接的所有结点,
O
O
O是
v
v
v和
W
以
W以
W以外的其他所有结点。
v
v
v表示的随机变量是
Y
v
Y_v
Yv,
W
W
W表示的随机变量组是
Y
W
Y_W
YW,
O
O
O表示的随机变量组是
Y
O
Y_O
YO。局部马尔可夫性是指在给定随机变量组
Y
W
Y_W
YW的条件下随机变量
Y
v
Y_v
Yv与随机变量组
Y
O
Y_O
YO是独立的,即:
P
(
Y
v
,
Y
O
∣
Y
W
)
=
P
(
Y
v
∣
Y
W
)
P
(
Y
O
∣
Y
W
)
P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)
P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)
在
P
(
Y
O
∣
Y
W
)
>
0
P(Y_O|Y_W)>0
P(YO∣YW)>0时,上式等价于:
P
(
Y
v
,
Y
O
∣
Y
W
)
=
P
(
Y
v
∣
Y
W
,
Y
O
)
P(Y_v,Y_O|Y_W)=P(Y_v|Y_W,Y_O)
P(Yv,YO∣YW)=P(Yv∣YW,YO)

形象理解就是当前节点
v
v
v与被其邻接节点
W
W
W环绕之外的所有节点
O
O
O是相互独立的。
全局马尔科夫性:设结点集合
A
A
A,
B
B
B是在无向图
G
G
G中被结点集合
C
C
C分开的任意结点集合,如图11.2所示。结点集合
A
A
A,
B
B
B和
C
C
C所对应的随机变量组分别是
Y
A
Y_A
YA,
Y
B
Y_B
YB和
Y
C
Y_C
YC。全局马尔可夫性是指给定随机变量组
Y
C
Y_C
YC条件下随机变量组
Y
A
Y_A
YA和
Y
B
Y_B
YB是条件独立的,即
P
(
Y
A
,
Y
B
∣
Y
C
)
=
P
(
Y
A
∣
Y
C
)
P
(
Y
B
∣
Y
C
)
P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)
P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)

意思是将图中圈C内两个随机变量取出,则圈C左边变量与右边变量相互独立。
以上三个马尔科夫性等价。
由此可以给出概率无向图定义:设有联合概率分布
P
(
Y
)
P(Y)
P(Y),由无向图
G
=
(
V
,
E
)
G=(V,E)
G=(V,E)表示,在图
G
G
G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布
P
(
Y
)
P(Y)
P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型(probability undirected graphical model),或马尔可夫随机场(Markov random field)。
团
图中有边相连的节点称为团,图中拥有最多节点的团称为最大团,注意把团的概念和连通图概念区分开来。
例如下图中有团:
{
Y
1
,
Y
2
}
,
{
Y
1
,
Y
3
}
,
{
Y
2
,
Y
3
}
,
{
Y
3
,
Y
4
}
,
{
Y
2
,
Y
4
}
,
{
Y
1
,
Y
2
,
Y
3
}
,
{
Y
2
,
Y
3
,
Y
4
}
\{Y_1,_Y2\},\{Y_1,_Y3\},\{Y_2,_Y3\},\{Y_3,_Y4\},\{Y_2,_Y4\},\{Y_1,Y_2,Y_3\},\{Y_2,Y_3,Y_4\}
{Y1,Y2},{Y1,Y3},{Y2,Y3},{Y3,Y4},{Y2,Y4},{Y1,Y2,Y3},{Y2,Y3,Y4},其中最大团是:
{
Y
1
,
Y
2
,
Y
3
}
,
{
Y
2
,
Y
3
,
Y
4
}
\{Y_1,Y_2,Y_3\},\{Y_2,Y_3,Y_4\}
{Y1,Y2,Y3},{Y2,Y3,Y4}

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。例如上图的联合概率分布可以表示为:
P
(
Y
)
=
1
Z
ψ
1
(
Y
1
,
Y
2
,
Y
3
)
⋅
ψ
2
(
Y
2
,
Y
3
,
Y
4
)
P(Y)=\cfrac{1}{Z}\psi_1(Y_1,Y_2,Y_3)\cdot\psi_2(Y_2,Y_3,Y_4)
P(Y)=Z1ψ1(Y1,Y2,Y3)⋅ψ2(Y2,Y3,Y4)
1
Z
\cfrac{1}{Z}
Z1是归一化因子。
通用形式可以写为:
P
(
Y
)
=
1
Z
∏
C
Ψ
C
(
Y
C
)
Z
=
∑
Y
∏
C
Ψ
C
(
Y
C
)
Ψ
C
(
Y
C
)
=
exp
{
−
E
(
Y
C
)
}
P(Y)=\cfrac{1}{Z}\prod_C\Psi_C(Y_C)\\ Z=\sum_Y\prod_C\Psi_C(Y_C)\\ \Psi_C(Y_C)=\exp\{-E(Y_C)\}
P(Y)=Z1C∏ΨC(YC)Z=Y∑C∏ΨC(YC)ΨC(YC)=exp{−E(YC)}
其中,
C
C
C是无向图的最大团,
Y
C
Y_C
YC是
C
C
C的结点对应的随机变量,
Ψ
C
(
Y
C
)
\Psi_C(Y_C)
ΨC(YC)是
C
C
C上定义的严格正函数(势函数或能量函数),乘积是在无向图所有的最大团上进行的。
条件随机场的定义与形式
条件随机场的定义:
设
X
X
X与
Y
Y
Y是随机变量,
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)是在给定
X
X
X的条件下
Y
Y
Y的条件概率分布。若随机变量
Y
Y
Y构成一个由无向图
G
=
(
V
,
E
)
G=(V,E)
G=(V,E)表示的马尔可夫随机场,即
P
(
Y
v
∣
X
,
Y
w
,
w
≠
v
)
=
P
(
Y
v
∣
X
,
Y
w
,
w
∼
v
)
P(Y_v|X,Y_w,w\ne v)=P(Y_v|X,Y_w,w\sim v)
P(Yv∣X,Yw,w=v)=P(Yv∣X,Yw,w∼v)
对任意结点
v
v
v成立,则称条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)为条件随机场。
上式中
v
v
v表示任意一个节点,
w
w
w表示除了
v
v
v的所有节点,
w
∼
v
w\sim v
w∼v表示所有与
v
v
v直接相连的节点。
该公式表示:对任意一个节点
v
v
v,给定其他所有节点时
v
v
v的分布等于给定与它直接相连的节点时
v
v
v的分布。(实际上就是局部马尔科夫性)
条件随机场的参数化形式:
P
(
y
∣
x
)
=
1
Z
(
x
)
exp
(
∑
i
,
k
λ
k
t
k
(
y
i
−
1
,
y
i
,
x
,
i
)
+
∑
i
,
l
u
l
s
l
(
y
i
,
x
,
i
)
)
P(y|x)=\cfrac{1}{Z(x)}\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}u_ls_l(y_i,x,i)\right)
P(y∣x)=Z(x)1exp⎝⎛i,k∑λktk(yi−1,yi,x,i)+i,l∑ulsl(yi,x,i)⎠⎞
其中
x
x
x相当于马尔科夫里面的观测链,
t
k
t_k
tk为转移特征,
s
l
s_l
sl为状态特征,
λ
k
,
u
l
\lambda_k,u_l
λk,ul表示权值。
Z
(
x
)
=
∑
y
exp
(
∑
i
,
k
λ
k
t
k
(
y
i
−
1
,
y
i
,
x
,
i
)
+
∑
i
,
l
u
l
s
l
(
y
i
,
x
,
i
)
)
Z(x)=\sum_y\exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}u_ls_l(y_i,x,i)\right)
Z(x)=y∑exp⎝⎛i,k∑λktk(yi−1,yi,x,i)+i,l∑ulsl(yi,x,i)⎠⎞
这里由于图是链式的:

因此最大团的形式是
y
i
−
1
,
y
i
y_{i-1},y_i
yi−1,yi
关于条件随机场的简化形式就不写了,稍微提一下思路,先把
∑
i
,
k
\sum_{i,k}
∑i,k中的k分解出去,然后再写成向量相乘的形式,因为:
a
=
(
x
1
,
y
1
)
,
b
=
(
x
2
,
y
2
)
a
⋅
b
=
x
1
x
2
+
y
1
y
2
a=(x1,y1),b=(x2,y2) \\a·b=x1x2+y1y2
a=(x1,y1),b=(x2,y2)a⋅b=x1x2+y1y2
条件随机场的相关问题
1.条件随机场的概率计算问题:
利用条件随机场的矩阵形式,计算:
P
(
Y
=
y
i
∣
x
)
P(Y=y_i|x)
P(Y=yi∣x)
方法:前向-后向算法
2.条件随机场的学习算法:
求对数线性模型参数
w
w
w
P
(
y
∣
x
)
=
1
Z
(
x
)
exp
∑
k
−
1
K
w
k
f
k
(
y
,
x
)
P(y|x)=\cfrac{1}{Z(x)}\exp \sum_{k-1}^Kw_kf_k(y,x)
P(y∣x)=Z(x)1expk−1∑Kwkfk(y,x)
方法:改进的迭代尺度法
拟牛顿法
3.条件随机场的预测算法
标注问题
y
∗
=
a
r
g
max
y
P
w
(
y
∣
x
)
y^*=arg\underset{y}{\max}P_w(y|x)
y∗=argymaxPw(y∣x)
维特比算法(动态规划)
总结
1.概率无向图模型是由无向图表示的联合概率分布。
2.条件随机场是给定输入随机变量X的条件下,输出随机变量Y的条件概率分布模型。
3.线形链条件随机场的概率计算通常利用前向-后向算法。
4.线形链条件随机场的一个重要应用是标注。
本文深入探讨概率无向图模型,包括马尔科夫随机场的定义,介绍了局部、全局马尔科夫性,并通过团的概念阐述了因子分解。接着,文章详细讲解了条件随机场,定义了其条件概率分布特性,并展示了线性链条件随机场的参数化形式。此外,还提及了条件随机场在概率计算、学习和预测中的关键算法,如前向-后向、维特比算法和拟牛顿法。
361

被折叠的 条评论
为什么被折叠?



