1. 引言
条件随机场(Conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场常用于序列标注问题,比如命名实体识别等。本文主要介绍线性链条件随机场。
2. 条件随机场原理介绍
2.1 概率无向图模型
由于CRF要求输出随机变量构成马尔可夫随机场,因此,这一节先介绍什么是马尔可夫随机场,马尔可夫随机场也称为概率无向图模型,是一个由无向图表示的联合概率分布。
图是由结点vvv和连接结点的边eee组成的集合,结点和边的集合分别记作VVV和EEE,图记作G=(V,E)G=(V, E)G=(V,E),无向图是指边没有方向的图。
概率图模型是由图表示的概率分布,设有联合概率分布P(Y)P(Y)P(Y),Y∈YY \in \mathcal{Y}Y∈Y是一组随机变量。由无向图G=(V,E)G=(V, E)G=(V,E)表示概率分布P(Y)P(Y)P(Y),即在图GGG中,结点v∈Vv \in Vv∈V表示一个随机变量YvY_{v}Yv,Y=(Yv)v∈VY=\left(Y_{v}\right)_{v \in V}Y=(Yv)v∈V,边e∈Ee \in Ee∈E表示随机变量之间的概率依赖关系。
在介绍概率无向图模型之前,还需要介绍三个概念,即成对马尔可夫性、局部马尔可夫性、全局马尔可夫性。
- 成对马尔可夫性:设uuu和vvv是无向图GGG中任意两个没有边连接的结点,结点uuu和vvv分别对应随机变量YuY_{u}Yu和YvY_{v}Yv,其他所有结点为OOO,对应的随机变量组是YOY_OYO,成对马尔可夫性是指给定随机变量组YOY_OYO的条件下随机变量YuY_{u}Yu和YvY_{v}Yv是条件独立的,即:P(Yu,Yv∣Yo)=P(Yu∣YO)P(Yv∣YO) P\left(Y_{u}, Y_{v} | Y_{o}\right)=P\left(Y_{u} | Y_{O}\right) P\left(Y_{v} | Y_{O}\right) P(Yu,Yv∣Yo)=P(Yu∣YO)P(Yv∣YO)
- 局部马尔可夫性:设v∈Vv \in Vv∈V是无向图GGG中任意一个结点,WWW是与vvv有边连接的所有结点,OOO是v,Wv, Wv,W以外的其他所有结点,vvv表示的随机变量是YvY_{v}Yv,WWW表示的随机变量组是YWY_{W}YW,OOO表示的随机变量组是YOY_{O}YO,局部马尔可夫性是指在给定随机变量组YWY_{W}YW的条件下,随机变量YvY_{v}Yv与随机变量组YOY_{O}YO是独立的,即:P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW) P\left(Y_{v}, Y_{O} | Y_{W}\right)=P\left(Y_{v} | Y_{W}\right) P\left(Y_{O} | Y_{W}\right) P(Yv,YO∣YW)=P(Yv∣YW)P(YO∣YW)
- 全局马尔可夫性:设结点集合A,BA, BA,B是在无向图GGG中被结点集合CCC分开的任意结点集合,结点集合A,B,CA,B,CA,B,C所对应的随机变量组分别是YA,YB,YCY_A,Y_B,Y_CYA,YB,YC,全局马尔可夫性是指给定随机变量组YCY_CYC条件下随机变量组YAY_AYA和YBY_BYB是条件独立的,即:P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC) P\left(Y_{A}, Y_{B} | Y_{C}\right)=P\left(Y_{A} | Y_{C}\right) P\left(Y_{B} | Y_{C}\right) P(YA,YB∣YC)=P(YA∣YC)P(YB∣YC)
概率无向图模型的定义为,设有联合概率分布P(Y)P(Y)P(Y),由无向图G=(V,E)G=(V, E)G=(V,E)表示,在图GGG中,如果联合概率分布P(Y)P(Y)P(Y)满足成对、局部或全局马尔可夫性,则称此联合概率分布为概率无向图模型,或马尔可夫随机场。
对于概率无向图模型,我们比较关心的是联合概率分布的计算,在实际的计算中,我们一般会将联合概率写成若干子联合概率乘积的形式,也就是将联合概率进行因子分解。
根据Hammersley-Clifford定理,概率无向图模型的联合概率分布P(Y)P(Y)P(Y)可以表示为如下形式:
P(Y)=1Z∏cΨC(YC)Z=∑Y∏CΨC(YC) \begin{array}{c}{P(Y)=\frac{1}{Z} \prod_{c} \Psi_{C}\left(Y_{C}\right)} \\ {Z=\sum_{Y} \prod_{C} \Psi_{C}\left(Y_{C}\right)}\end{array} P(Y)=Z1∏cΨC(YC)Z=∑Y∏CΨC(YC)其中,CCC是无向图的最大团,无向图GGG中任何两个结点均有边连接的结点子集称为团,若CCC是无向图GGG的一个团,并且不能再加进任何一个GGG的结点使其成为一个更大的团,则称此CCC为最大团。YCY_{C}YC是CCC的结点对应的随机变量,ΨC(YC)\Psi_{C}\left(Y_{C}\right)ΨC(YC)是CCC上定义的严格正函数,一般定义为指数函数:
ΨC(YC)=exp{
−E(YC)} \Psi_{C}\left(Y_{C}\right)=\exp \left\{-E\left(Y_{C}\right)\right\} ΨC(YC)=exp{
−E(YC)}而ZZZ是规范化因子,是为了保证P(Y)P(Y)P(Y)构成一个概率分布。
2.2 条件随机场的定义
2.2.1 条件随机场的定义
条件随机场:设XXX与YYY是随机变量,P(Y∣X)P(Y | X)P(Y∣X)是在给定XXX的条件下YYY的条件概率分布。若随机变量YYY构成一个由无向图G=(V,E)G=(V, E)G=(V,E)表示的马尔可夫随机场,即P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w∼v) P\left(Y_{v} | X, Y_{w}, w \neq v\right)=P\left(Y_{v} | X, Y_{w}, w \sim v\right) P(Yv∣X,Yw,w̸=v)=P(Yv∣X,Yw,w∼v)对任意结点vvv