笔记(总结)-从马尔可夫模型到条件随机场-3

最新推荐文章于 2025-11-18 18:35:47 发布

原创最新推荐文章于 2025-11-18 18:35:47 发布 · 755 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#条件随机场 #概率图模型 #最大团 #序列标注

MasterWork-UCAS 同时被 3 个专栏收录

67 篇文章

订阅专栏

科研|算法|论文

59 篇文章

订阅专栏

笔记

53 篇文章

订阅专栏

本文深入讲解条件随机场(CRF)的基本概念与原理，包括定义、建模公式、参数学习及求解方法等，并对比最大熵模型和马尔可夫模型，突出CRF的优势。

本篇紧接上篇笔记(总结)-从马尔可夫模型到条件随机场-2，讲述条件随机场（Conditional Random Field）。

条件随机场

定义

先给出几个相关概念的定义。

随机场:可看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。这些随机变量之间可能有依赖关系，当给每一个位置中随机变量按照某种分布随机赋予相空间（相空间是一个用以表示出一系统所有可能状态的空间，这里可以视作样本空间）的一个值之后，其全体就叫做随机场。
马尔可夫随机场：一个具有马尔可夫性质的无向图，图中每个节点对应一个随机变量，节点之间的边表示节点对应的随机变量之间有依赖关系

下面给出条件随机场的定义：设 $X$ 和 $Y$ 是随机变量，若 $Y$ 构成一个马尔可夫随机场，则称 $P(Y|X)$ 为条件随机场。由于在实际应用中，通常将条件随机场运用于序列问题，所以本文中的条件随机场均指线性链条件随机场。如下图所示：

条件随机场首先是一个随机场，即 $Y$ 之间有依赖关系，其次是一个马尔可夫随机场，即 $Y_i$ 只与 $Y_{i-1},Y_{i+1}$ 有依赖关系，最后是条件概率，即给定了观察集合 $X$ ，针对 $P(Y|X)$ 建模。这三点可以由以下公式描述：

P(Yi|X,Y1,...,Yi−1,Yi+1,...,Yn)=P(Yi|X,Yi−1,Yi+1) P ( Y i | X , Y 1 , . . . , Y i − 1 , Y i + 1 , . . . , Y n ) = P ( Y i | X , Y i − 1 , Y i + 1 ) $P(Y_i|X,Y_1,...,Y_{i-1},Y_{i+1},...,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$

概率无向图的概率建模

那么我们如何得到CRF的具体建模公式呢？由于 $Y$ 是马尔可夫随机场，属于概率无向图模型，首先来看下概率无向图模型的联合概率分布 $P(Y)$ 应该如何求。对于一个如下图所示的无向图，给出“团”和“最大团”定义：

团：无向图中，任何两个节点均有边链接的节点子集称为团（类似于连通子图）。
最大团：若C是无向图的一个团，并且不能再加入任何一个其它结点称为一个更大的团，则称C为最大团（类似于最大联通子图）。

我们将联合概率进行因子分解，成为若干个部分，每个部分是一个最大团，那么联合概率分布可以写作所有无向图的最大团上随机变量的联合概率的乘积，即：

P(Y)=1Z∏cψc(Yc) P ( Y ) = 1 Z ∏ c ψ c ( Y c ) $P(Y)=\frac{1}{Z}\prod_c\psi_c(Y_c)$

其中， $C$ 表示最大团， $Z=\sum_Y\prod_c\psi_c(Y_c)$ 是归一化因子， $\psi_c(Y_c)$ ，是一个最大团上随机变量们的联合概率，叫做势函数，一般取为：

ψc(Yc)=e−E(Yc)=e∑kλkfk(c,y|c,x) ψ c ( Y c ) = e − E ( Y c ) = e ∑ k λ k f k ( c , y | c , x ) $\psi_c(Y_c)=e^{-E(Y_c)}=e^{\sum_k\lambda_kf_k(c,y|c,x)}$

CRF的建模公式

CRF中 $Y$ 的部分就是一个概率无向图模型，现在基于条件概率，改写上述公式，得到：

P (Y | X) = \frac{1}{Z} \prod_{c} ψ_{c} (Y_{c} | X) = \frac{1}{Z} \prod_{c} e^{\sum_{k} λ_{k} f_{k} (c, y | c, x)} = \frac{1}{Z} e^{\sum_{c} \sum_{k} λ_{k} f_{k} (y_{i}, y_{i - 1}, x, i)}

$P(Y|X)=\frac{1}{Z}\prod_c\psi_c(Y_c|X)=\frac{1}{Z}\prod_ce^{\sum_k\lambda_kf_k(c,y|c,x)}=\frac{1}{Z}e^{\sum_c\sum_k\lambda_kf_k(y_i,y_{i-1},x,i)}$

由CRF的结构图可以看到，每一个 $(X_i,Y_i)$ 对构成一个最大团，因此 $c \Longleftrightarrow i$ 。即最大团上的概率连乘可以改写为时间序列的概率连乘，同时还原 $X$ 为可观测输出 $O$ ， $Y$ 为隐状态 $Q$ ，于是，得到CRF的建模公式：

P(Q|O)=1Z∏Tt=1ψc(qt|ot)=1Z∏Tt=1e∑kλkfk(qt−1,qt,ot,t)=1Ze∑Tt=1∑kλkfk(qt−1,qt,ot,t) P ( Q | O ) = 1 Z ∏ t = 1 T ψ c ( q t | o t ) = 1 Z ∏ t = 1 T e ∑ k λ k f k ( q t − 1 , q t , o t , t ) = 1 Z e ∑ t = 1 T ∑ k λ k f k ( q t − 1 , q t , o t , t ) $P(Q|O)=\frac{1}{Z}\prod_{t=1}^T\psi_c(q_t|o_t)=\frac{1}{Z}\prod_{t=1}^Te^{\sum_k\lambda_kf_k(q_{t-1},q_t,o_t,t)}=\frac{1}{Z}e^{\sum_{t=1}^T\sum_k\lambda_kf_k(q_{t-1},q_t,o_t,t)}$

可以看到该公式和最大熵的公式是十分相似的。下标 $t$ 表示的是时间序列上的位置。下标 $k$ 表示的是具体哪个特征函数，每个特征函数都带有权值，每个最大团都有若干个特征。针对CRF，设计两类特征函数：转移特征函数 $t_k$ ，依赖于前一个位置和当前位置；状态特征函数 $s_l$ ，依赖于当前位置。继续展开公式：

P (Q | O) = 1 Z e [\sum T i = 1 \sum k λ k t k (q t - 1, q t, o t, t) + \sum T i = 1 \sum l λ l t l (q t, o t, t)] Z = \sum y e [\sum T i = 1 \sum k λ k t k (q t - 1, q t, o t, t) + \sum T i = 1 \sum l λ l t l (q t, o t, t)]

$P(Q|O)=\frac{1}{Z}e^{[\sum_{i=1}^T\sum_k\lambda_kt_k(q_{t-1},q_t,o_t,t)+\sum_{i=1}^T\sum_l\lambda_lt_l(q_t,o_t,t)]} \\ Z=\sum_ye^{[\sum_{i=1}^T\sum_k\lambda_kt_k(q_{t-1},q_t,o_t,t)+\sum_{i=1}^T\sum_l\lambda_lt_l(q_t,o_t,t)]}$

通常将上述两部分特征统一表示，上式简化为：

P(Q|O)=1Ze∑i∑kλkfk(qt−1,qt,ot,t) P ( Q | O ) = 1 Z e ∑ i ∑ k λ k f k ( q t − 1 , q t , o t , t ) $P(Q|O)=\frac{1}{Z}e^{\sum_i\sum_k\lambda_kf_k(q_{t-1},q_t,o_t,t)}$

特征函数与最大熵模型中的定义是类似的，满足某种条件，则给定分数，否则给0分。在此就不细说了。