11_条件随机场CRF1_统计学习方法

本文链接：https://blog.youkuaiyun.com/weixin_42432468/article/details/99903887

本文深入解析条件随机场（CRF）的概念，包括其基本原理、定义与形式，以及与马尔科夫随机场的关系。阐述了CRF在序列标注任务中的应用，通过线性链CRF模型展示其参数化形式、简化形式和矩阵表示，为理解复杂模型提供清晰视角。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、条件随机场相关基本概念
二、条件随机场的定义与形式
三、条件随机场的概率计算问题
四、条件随机场的学习算法
五、条件随机场的预测算法
六、HMM与线性链条件随机场的比较

条件随机场内容较多，方便阅读，分成2个部分
下接：11_条件随机场CRF2_统计学习方法

一、条件随机场相关基本概念

1.1 条件随机场

条件随机场（conditional random field，CRF）是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔科夫随机场。

1.2 马尔科夫随机场

1.2.1 马尔科夫

一般指马尔科夫性，即成对马尔科夫性、局部马尔科夫性、全局马尔科夫性。下面在介绍概率无向图是详细说明马尔科夫性。

马尔科夫独立性假设：指的是一个随机变量序列按时间先后关系依次排开的时候，第N+1时刻的分布特性，只依赖于之前的k个时刻，这个过程被称为一个k阶的模型。最简单的马尔科夫链就是一阶过程，第N+1时刻的分布特性只与N时刻的取值有关。拿天气来打个比方。如果假定天气是一阶马尔可夫过程，其意思就是假设今天的天气仅仅与昨天的天气存在概率上的关联，而与前天及前天以前的天气没有关系。下面没有特别说明阶数都是指一阶马尔科夫过程。

1.2.2 随机场

随机场包含两个要素：位置（site），相空间（phase space）。当给每一个位置按照某种分布随机赋予相空间的一个值之后，其全体就叫做随机场。

我们不妨拿种地来打个比方。“位置”好比是一亩亩农田； “相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼，这就好比给随机场的每个“位置”，赋予相空间里不同的值。所以，俗气点说，随机场就是在哪块地里种什么庄稼的事情。

马尔科夫随机场，描述了具有某种特性（马尔可夫性）的集合。

拿种地打比方，如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关，与其它地方的庄稼的种类无关，那么这些地里种的庄稼的集合，就是一个马尔可夫随机场。

1.3 概率无向图模型

按李航统计学习方法，概率无向图模型与马尔科夫随机场是同一个概念的两种名称。

1.3.1 图（graph）

图（graph）由结点（node）及连接结点的边（edge）组成的集合。结点和边分别记作 $v\,$ 和 $e\,$ ，结点和边的集合分别记作 $V\,$ 和 $E\,$ ，图记作 $G = (V, E)$ 。

1.3.2 无向图

边没有方向的图。前面一节讲的隐马尔科夫模型就属于有方向的图模型。

1.3.3 概率图模型（probablilistic graphical model）

由图表示的概率分布。设有联合概率分布 $P(Y),Y\in \bf{Y}$ 是一组随机变量。

无向图 $G = (V, E)$ 表示概率分布 $P (Y)$ ；
在图 $G$ 中，结点 $v\in V$ 表示一个随机变量 $Y_v,Y = (Y_v)_{v\in V}$ ；
边 $e\in E$ 表示随机变量之间的概率依赖关系。

1.3.4 概率无向图模型

设有联合概率分布 $P (Y)$ ，由无向图 $G = (V, E)$ 表示，在图 $G$ 中，结点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布 $P (Y)$ 满足成对、局部或全局马尔科夫性，就称此联合概率分布为概率无向图模型或马尔科夫随机场。马尔科夫性是判断概率图是否为概率无向图的条件。

1.4 成对马尔科夫性、局部马尔科夫性、全局马尔科夫性

1.4.1 成对马尔科夫性

图片来自博客。

设 $u\,$ 和 $v\,$ 是无向图 $G$ 中任意两个没有边连接的结点，结点 $u\,$ 和 $v\,$ 分别对随机变量 $Y_u$ 和 $Y_v$ 。其他所有结点为 $O$ ，对应的随机变量组是 $Y_O$ 。成对马尔可夫性是指给定随机变量组 $Y_O$ 的条件下随机变量 $Y_u$ 和 $Y_v$ 是条件独立的，即
$P(Y_u,Y_v|Y_O) = P(Y_u|Y_O)P(Y_v|Y_O) \tag{1}$

1.4.2 局部马尔科夫性

设 $v\in V$ 是无向图 $G$ 中任意一个结点，W是与 $v\,$ 有边连接的所有结点， $O$ 是 $v, W$ 以外的其他所有节点。 $v\,$ 表示的随机变量是 $Y_v,W$ 表示的随机变量组是 $Y_w,O$ 表示的随机变量组是 $Y_O$ 。局部马尔可夫性是指在给定随机变量组 $Y_W$ 的条件下随机变量 $Y_v$ 与随机变量组 $Y_O$ 是独立的，即
$P(Y_v,Y_O|Y_W) = P(Y_v|Y_W)P(Y_O|Y_W) \tag{2}$
在 $P(Y_O|Y_W) >0$ 时，等价地，
$P(Y_v|Y_W) = \dfrac{P(Y_v,Y_O|Y_W)}{P(Y_O|Y_W)} = P(Y_v|Y_O,Y_W) \tag{3}$

1.4.3 全局马尔科夫性

设结点集合 $A, B$ 是在无向图 $G$ 中被结点集合 $C$ 分开的任意结点集合，如上图所示。结点集合 $A, B$ 和 $C$ 所对应的随机变量组分别是 $Y_A,Y_B$ 和 $Y_C$ 。全局马尔可夫性是指给定随机变量组 $Y_C$ 条件下随机变量组 $Y_A$ 和 $Y_B$ 是条件独立的，即
$P(Y_A,Y_B|Y_C) = P(Y_A|Y_C)P(Y_B|Y_C)\tag{4}$

上述成对的、局部的、全局的马尔科夫性定义是等价的。

通过上面的概念引入可以理解清楚条件随机场的定义了。实际上，我们更关心的是如何求序列的联合概率分布，对于线性链条件随机场来说就是求条件概率序列的联合概率分布。所以还得引入下面的几个概念。

1.5 图模型的概率分布

这部分内容主要来自NLP —— 图模型（二）条件随机场。

1.5.1 有向图模型的联合概率分布

考虑一个有向图 $G^d = (V^d,E^d)$ ，随机变量间的联合概率分布可以利用条件概率来表示为
$P(v_1^d,v_2^d,\cdots,v_n^d) = \prod_{i=1}^N P(v_i^d|v_{\pi i}^d)$

其中 $v_{\pi i}^d$ 表示节点 $v_i^d$ 的父节点的集合。

1.5.2 团与最大团

无向图 $G$ 中任何两个结点均有边连接的结点子集称为团(clique)，若 $C$ 是无向图 $G$ 的一个团，并且不能再加进任何一个 $G$ 的结点使其称为一个更大的团，则称此 $C$ 为最大的团(max clique)。

下图表示由4个结点组成的无向图。图中由2个结点组成的团有5个： ${Y_1,Y_2\},\{Y_1,Y_3\},\{Y_2,Y_3\},\{Y_2,Y_4\},\{Y_3,Y_4\}$ 。有2个最大团： ${Y_1,Y_2,Y_3\},\{Y_2,Y_3,Y_4\}$ 。而 ${Y_1,Y_2,Y_3,Y_4\}$ 不是一个团，因为 $Y_1$ 和 $Y_4$ 没有边连接。

1.5.3 无向图模型的联合概率分布

不同于有向图模型，无向图模型的无向性很难确保每个节点在给定它的邻节点的条件下的条件概率和以图中其他节点为条件的条件概率一致，即不能保证式（3） $P(Y_v|Y_W) = P(Y_v|Y_O,Y_W)$ 成立。由于这个原因，无向图模型的联合概率并不是用条件概率参数化表示的，而是定义为由一组条件独立的局部函数的乘积形式。因子分解就是说将无向图所描述的联合概率分布表达为若干个子联合概率的乘积，从而便于模型的学习和计算。

概率无向图模型的因子分解：将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作。

给定概率无向图模型，设其无向图为 $G, C$ 为 $G$ 上的最大团， $Y_C$ 表示 $C$ 对应的随机变量。那么概率无向图模型的联合概率分布 $P (Y)$ 可写作图中所有最大团 $C$ 上的函数 $\Psi_C(Y_C)$ 的乘积形式，即
$\dfrac{1}{Z}\prod_{C}\Psi_C(Y_C) \tag{5}$
其中， $Z$ 是规范化因子，由式
$\sum_Y \prod_C \Psi_C(Y_C) \tag{6}$
给出。规范化因子保证 $P (Y)$ 构成一个概率分布。函数 $\Psi_C(Y_C)$ 称为势函数（potential function）。这里要求势函数 $\Psi_C(Y_C)$ 是严格正的，通常定义为指数函数：
$\Psi_C(Y_C) = exp\{-E(Y_C)\} \tag{7}$
上面的因子分解过程就是 Hammersley-Clifford 定理。

经过上面概念的引入，可以理解条件随机场了。下面再引用一张图了解条件随机场具体处于什么位置。

图片来自博客。

二、条件随机场的定义与形式

条件随机场是给定随机变量 $X$ 条件下，随机变量 $Y$ 的马尔科夫随机场。这里主要介绍定义在线性链上的特殊的条件随机场，称为线性链条件随机场，下文说的条件随机场都是指线性链条件随机场。

2.1 条件随机场的定义

条件随机场：设 $X$ 与 $Y$ 是随机变量， $P (Y ∣ X)$ 是在给定 $X$ 的条件下 $Y$ 的条件概率分布。若随机变量 $Y$ 构成一个由无向图 $G = (V, E)$ 表示的马尔科夫随机场，即
$P(Y_v|X,Y_w,w\not= v) = P(Y_v|X,Y_w,w \text{-} v) \tag{8}$
对任意结点 $v$ 成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场。

$\text{-} v$ 表示在图 $G = (V, E)$ 中与结点 $v$ 有边连接的所有结点 $w$ ；
$w\not=v$ 表示结点 $v$ 以外的所有结点， $Y_v,Y_u$ 与 $Y_w$ 为结点 $v, u$ 与 $w$ 对应的随机变量。

上述定义中并没有要求 $X$ 和 $Y$ 具有相同的结构。现实中，一般假设 $X$ 和 $Y$ 有相同的图结构。本节主要考虑无向图为如下图所示的线性链的情况，即
$\{1,2,\cdots,n\},E = \{(i,i+1\}),\,i=1,2,\cdots,n-1$
在此情况下， $(X_1,X_2,\cdots,X_n),Y = (Y_1,Y_2,\cdots,Y_n)$ ，最大团是相邻两个结点的集合。

线性条件随机场：设 $(X_1,X_2,\cdots,X_n),Y = (Y_1,Y_2,\cdots,Y_n)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔科夫性
$P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1}) ,\;i =1,2,\cdots,n(在i=1和n时只考虑单边) \tag{9}$
则称 $P (Y ∣ X)$ 为线性链条件随机场。

在标注问题中， $X$ 表示输入观测序列， $Y$ 表示对应的输出标记序列或状态序列。

2.2 条件随机场的参数化形式

线性链条件随机场的参数化形式 设 $P (Y ∣ X)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x\,$ 的条件下，随机变量 $Y$ 取值为 $y\,$ 的条件概率具有如下形式：
$\dfrac{1}{Z(x)}exp\left( \sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i) + \sum_{i,l}\mu_l s_l(y_i,x,i)\right) \tag{10}$
其中，
$\sum_y exp\left( \sum_{i,k}\lambda_k t_k(y_{i-1},y_i,x,i) + \sum_{i,l}\mu_l s_l(y_i,x,i)\right) \tag{11}$

$t_k和s_l$ 是特征函数；
$\lambda_k和\mu_l$ 是特征函数 $t_k和s_l$ 对应的权值；
$Z (x)$ 是规范化因子；
求和是在所有可能的输出序列上进行的。

式（10）和式（11）是线性链条件随机场模型的基本形式，表示给定输入序列 $x\,$ ，对输出序列 $y\,$ 预测的条件概率。

式（10）和式（11）中 $t_k$ 是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置；
$s_l$ 是定义在结点上的特征函数，称为状态特征，依赖于当前位置。
$t_k和s_l$ 都依赖于位置，是局部特征函数；
通常，特征函数 $t_k和s_l$ 取值为1或者0；当满足特征条件时取值为1，否则为0；
条件随机场完全由特征函数 $t_k,s_l$ 和对应的权值 $\lambda_k,\mu_l$ 确定。

线性链条件随机场也是对数线性模型。

2.3 条件随机场的简化形式

条件随机场式（10）中同一特征在各个位置都有定义，可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样就可以将条件随机场写成权值向量和特征向量的内积形式。

2.3.1 统一表示特征函数和其权值

为了简便起见，首先将转移特征和状态特征及其权值用统一的符号表示。设有 $K_1$ 个转移特征， $K_2$ 个状态特征， $K=K_1 + K_2$ ，记
$f_k(y_{i-1},y_i,x,i) = \begin{cases} t_k(y_{i-1},y_i,x,i), & k=1,2,\cdots,K_1 \\[2ex] s_l(y_i,x,i), & k=K_1 + l;l=1,2,\cdots,K_2 \tag{12} \end{cases}$
然后，对转移与状态特征在各个位置 $i\,$ 求和，记作
$f_k(y,x) = \sum_{i=1}^n f_k(y_{i-1},y_i,x,i),\,k=1,2,\cdots,K \tag{13}$
用 $w_k$ 表示特征 $f_k(y,x)$ 的权值，即
$w_k = \begin{cases} \lambda_k, & k=1,2,\cdots,K_1 \\[2ex] \mu_l, & k=K_1 + l;l=1,2,\cdots,K_2 \tag{14} \end{cases}$
于是，条件随机场式（10）、（11）可表示为
$\dfrac{1}{Z(x)}exp(\sum_{k=1}^K w_k f_k(y,x)) = \dfrac{1}{Z(x)}exp\left(\sum_{k=1}^K w_k \sum_{i=1}^n f_k(y_{i-1},y_i,x,i)\right) = \dfrac{1}{Z(x)}\prod_{i}exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) \tag{15}$

$\sum_y exp(\sum_{k=1}^K w_k f_k(y,x)) = \sum_y exp\left(\sum_{k=1}^K w_k \sum_{i=1}^n f_k(y_{i-1},y_i,x,i)\right)= \sum_y \prod_{i}exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) \tag{16}$
如前面图中两种类型的线性链条件随机场，每一对 $y_{i-1},y_i)$ 即为模型中的最大团， $x\,$ 为条件，所以有线性链条件随机场的因子分解如式（15）、（16）。此时势函数 $\Psi_C(Y_C) = exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right)$

2.3.2 内积形式

若以 $w$ 表示权值向量，即
$(w_1,w_2,\cdots,w_K)^T \tag{17}$
以 $F (y, x)$ 表示全局特征向量，即
$(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T \tag{18}$
则条件随机场可以写成向量 $w$ 与 $F (y, x)$ 的内积的形式：
$P_w(y|x) = \dfrac{exp(w\cdot F(y,x))}{Z_w(x)} \tag{19}$
其中，
$Z_w(x) = \sum_{y} exp(w\cdot F(y,x)) \tag{20}$

2.4 条件随机场的矩阵形式

条件随机场还可以由矩阵表示。假设 $P_w(y|x)$ 是由式（15）、（16）给出的线性链条件随机场，表示对给定观测序列 $x\,$ ，相应的标记序列 $y\,$ 的条件概率。引进特殊的起点和终点状态标记 $y_0 = start,y_{n+1} = stop$ ，这时 $P_w(y|x)$ 可以通过矩阵形式表示。

对观测序列 $x\,$ 的每一个位置 $i=1,2,\cdots,n+1$ ，定义一个 $m\,$ 阶矩阵（ $m\,$ 是标记 $y_i$ 取值的个数）
$M_i(x) = \left[M_i(y_{i-1},y_i|x) \right]_{m\times m} \tag{21}$
$M_i(y_{i-1},y_i|x) = exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right) \tag{22}$
上式书中求和是 $i = 1$ 应该是写错了，应该为 $k = 1$ 。这样，给定观测序列 $x\,$ ，标记序列 $y\,$ 的非规范化概率可以通过 $n + 1$ 个矩阵的乘积 $\prod_{i+1}^{n+1}M_i(y_{i-1},y_i|x)$ 表示，于是，条件概率 $P_w(y|x)$ 是
$P_w(y|x) = \dfrac{1}{Z_w(x)}\prod_{i+1}^{n+1}M_i(y_{i-1},y_i|x) \tag{23}$
注意上式与式（15）的对比，也就是加了一层马甲 $M_i(y_{i-1},y_i|x)$ 。其中， $Z_w(x)$ 为规范化因子，是 $n + 1$ 个矩阵的乘积的（start，stop）元素：
$Z_w(x) = \sum_y \prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x) = \left(M_1(x)M_2(x)\cdots M_{n+1}(x)\right)_{start,stop}\tag{24}$

$y_0 = start 与y_{n+1} = stop$ 表示开始状态与终止状态
规范化因子 $Z_w(x)$ 是以start为起点stop为终点通过状态的所有路径 $y_1y_2\cdots y_n$ 的非规范化概率 $\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x)$ 之和；
规范化里面 $\sum_{y}$ 从式（21）可以看出其意义，如果每一步标记 $y_i$ 取值的个数为 $m\,$ ，有 $n\,$ 步，那么所有可能的 $y\,$ 序列有 $m^n$ 种情况， $\sum_{y}$ 即对这 $m^n$ 种情况求和，采用矩阵形式如式（23）、（24）可以加快计算速度。