CRF序列标注模型详解-优快云博客

本文链接：https://blog.youkuaiyun.com/MrR1ght/article/details/106627464

1适用场景

CRF是用于序列标注的模型，区别于其他算法对一个随机变量建模，CRF是对一组随机变量的联合概率分布进行建模。

2算法原理

CRF做了一下假设：

1假设联合概率分布是指数族分布
$p(y_1,y_2,...,y_n|X)=\frac{1}{Z(x)}exp(f(y_1,y_2,...,y_n;X))$
2成对/局部/全局马尔科夫假设

先给出一些概念定义

（1）如果联合概率分布 $p (Y)$ 满足成对/局部/全局马尔科夫性，则称该联合分布为概率无向图模型，或马尔科夫随机场。

（2）马尔科夫随机场的因子分解：概率无向图（马尔科夫随机场）的概率分布可表示为最大团上的随机变量函数乘积的形式（由Hammersley-Clifford定理保证）。

（3）在给定随机变量 $X$ 的情况下，随机变量 $Y$ 的马尔科夫随机场称为条件随机场。

一般常用的是用于序列标注的线性链条件随机场。每两个相邻节点构成极大团。根据线性链条件随机场的因子分解，可将联合概率分布表示为：
$p(y_1,y_2,...,y_n|x)=\frac{1}{Z(x)}exp(\sum_{i=1}^{n-1}(h(y_i;x)+g(y_i,y_{i+1};x)+h(y_n;x))$
一般将CRF用于神经网络中时，为简化在 $g(y_i,y_{i+1};x)$ 中不考虑x的影响。即：
$p(y_1,y_2,...,y_n|x)=\frac{1}{Z(x)}exp(\sum_{i=1}^{n-1}(h(y_i;x)+g(y_i,y_{i+1})+h(y_n;x))$
其中：

$h(y_i;x)$ 发射得分由神经网络（多分类）给出，网络考虑X的上下文给出每一个时刻的标签。

$g(y_i,y_{i+1})$ 转移得分由CRF给出，CRF考虑标签label的上下文。

3算法优化

用对数似然作为损失函数，然后可以使用梯度下降进行优化。
$LL(\theta)=-\sum_{j=i}^N\mathop{log}p(y_1^j,y_2^j,...,y_n^j|x)\\ =-\sum_{i=1}^N[\sum_{i=1}^{n-1}(h(y_i^j;x)+g(y_i^j,y_{i+1}^j)+h(y_n^j;x))+\mathop{logZ(x)}]$
这个Loss函数的难点在于计算归一化因为Z(x)上。因为联合概率共有 $K^n$ 种可能（K是y可能取值的个数，n是序列长度）。一般使用动态规划将其复杂度降为 $nK^2$ 。

3.1 归一化因子的计算

归一化因子Z(x)共有 $K^n$ 可能，计算复杂，但是由于只考虑相邻节点的联系，所以可以递推的算出Z(x)。具体过程如下：

（1）计算 $Z_0$ 递推出 $Z_1$ ，然后一次递推出 $Z_2,Z_3,...,Z_n$ 。

（2） $Z_0=Z_0^1+Z_0^2+Z_0^3+...+Z_0^k$ 。 $Z_i$ 每一个时刻是对其每一种可能取值计算后求和。

（3） $Z_i^j$ 的计算。

根据对CRF的定义。已知 $Z_t$ ，具有以下递推关系
$Z_{t+1}^1=(Z_t^0G_{11}+Z_t^1G_{21}+...+Z_t^kG_{k1})H_{t+1}(1|x)\\ Z_{t+1}^2=(Z_t^0G_{12}+Z_t^1G_{22}+...+Z_t^kG_{k2})H_{t+1}(2|x)\\ ...\\ Z_{t+1}^k=(Z_t^0G_{1k}+Z_t^1G_{2k}+...+Z_t^kG_{kk})H_{t+1}(k|x)$
$G$ 是kxk的状态转移矩阵， $G_{ij}$ 代表从状态i转移到状态j的得分（注意区别于hmm不是概率）。 $Z_t=[Z_t^1,Z_t^2,Z_t^3,...,Z_t^k]$ 代表在递推过程中t时刻计算的结果（行向量）。 $H_{t+1}=[H_{t+1}(1|x),H_{t+1}(1|x),...,H_{t+1}(1|x)]$ 代表t+1时刻各状态可能取值的得分（行向量）。那么以上的递推关系可以用矩阵形式表示
$Z_{t+1}=Z_tG{\otimes}H_{t+1}(y|x)$
按以上递推关系依次计算 $Z_1,Z_2,...,Z_n$ ，然后对最后的 $Z_n$ 各分量求和即得到最终的结果